RU2606566C2 - Method and device for classifying noisy voice segments using multispectral analysis - Google Patents

Method and device for classifying noisy voice segments using multispectral analysis Download PDF

Info

Publication number
RU2606566C2
RU2606566C2 RU2014154081A RU2014154081A RU2606566C2 RU 2606566 C2 RU2606566 C2 RU 2606566C2 RU 2014154081 A RU2014154081 A RU 2014154081A RU 2014154081 A RU2014154081 A RU 2014154081A RU 2606566 C2 RU2606566 C2 RU 2606566C2
Authority
RU
Russia
Prior art keywords
speech signal
classification
segments
groups
noisy
Prior art date
Application number
RU2014154081A
Other languages
Russian (ru)
Other versions
RU2014154081A (en
Inventor
Олег Николаевич Титов
Андрей Алексеевич Афанасьев
Михаил Владимирович Илюшин
Original Assignee
Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) filed Critical Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority to RU2014154081A priority Critical patent/RU2606566C2/en
Publication of RU2014154081A publication Critical patent/RU2014154081A/en
Application granted granted Critical
Publication of RU2606566C2 publication Critical patent/RU2606566C2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: digital communications; information technology.
SUBSTANCE: invention relates to digital communication and voice processing techniques in the conditions of noise masking. Method of classifying noisy voice segments involves multispectral analysis for partial noise suppression by increasing adequacy of the signal Fourier spectrum, which is restored from evaluation of the processed noisy voice signal bispectrum; further, basing on the initial voice signal and standardized Fourier spectrum in each segment identified is presence/absence of classification features of the voice signal and weight coefficients, performed is their correction using the hierarchy procedure and at the final stage a decision is taken upon the issue of associating the segment to typical groups, as per the comparison results formed is a sequence of symbols indicating the typical groups.
EFFECT: higher accuracy of classifying noisy voice segments as per typical classification groups.
10 cl, 7 dwg

Description

Представленные изобретения объединены единым замыслом и относятся к области цифровой связи, могут быть использованы в системах телекоммуникаций при реализации процедуры классификации сегментов речевого сигнала в условиях зашумления.The presented inventions are united by a single concept and relate to the field of digital communications; they can be used in telecommunication systems when implementing the classification procedure for segments of a speech signal in a noisy environment.

Область применения изобретений: радиотелефония и системы распознавания речи, голосовое управление электронными приборами, автоматическая стенография, голосовое управление движущимися средствами на расстоянии слышимости голоса.Scope of inventions: radiotelephony and speech recognition systems, voice control of electronic devices, automatic shorthand, voice control of moving means at a distance of audible voice.

Несмотря на наличие большого количества технических решений в области применения заявленных изобретений существует проблема, связанная с обработкой зашумленной речи при высокой интенсивности шумового воздействия, что сильно проявляется в снижении достоверности принятых решений уже разработанных на настоящее время способов и устройств, их реализующих.Despite the presence of a large number of technical solutions in the field of application of the claimed inventions, there is a problem associated with the processing of noisy speech at a high intensity of noise exposure, which is strongly manifested in a decrease in the reliability of the decisions made by the currently developed methods and devices that implement them.

Известен способ и устройство распознавания речи (патент на изобретение США US 4624011 A, G10L 5/00, 28.01.1983), в которых распознавание речи производят путем поэтапного выполнения определенных процедур: оценивают амплитудный и фазовый Фурье-спектры, затем выделяют последовательности фонем и их акустических характеристик, вычисляемых вспомогательным модулем, которые затем сравнивают с хранящимися в памяти эталонными параметрами для анализируемых последовательностей, и далее определяют степень сходства, осуществляемую через интервальную оценку, характеризуемую среднеквадратической ошибкой. Данный способ и устройство, его реализующее, характеризуется низкой помехозащищенностью, так как в условия присутствия зашумления обрабатываемого речевого сигнала распознавание посредством сравнения с эталоном становится невозможным, что приводит к значительному снижению достоверности принимаемых решений.A known method and device for speech recognition (US patent US 4,624,011 A, G10L 5/00, 01/28/1983), in which speech recognition is performed by the phased execution of certain procedures: the amplitude and phase Fourier spectra are evaluated, then the sequences of phonemes and their acoustic characteristics calculated by the auxiliary module, which are then compared with the stored reference parameters for the analyzed sequences, and then determine the degree of similarity through an interval assessment, ha RMS error. This method and device that implements it is characterized by low noise immunity, since in the presence of noise of the processed speech signal, recognition by comparison with a reference becomes impossible, which leads to a significant decrease in the reliability of decisions made.

Имеется способ и устройство распознавания слитной речи (патент США US 4852170, G10L 5/04, 18.12.1986), основанных на обработке речи в режиме реального времени устройством, в котором определяют спектральные оценки каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируют логически на наличие фонем и их принадлежность определенному классу, частью которого они являются, и затем частотный спектр сегмента анализируют на наличие особенностей, позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом диктора.There is a method and apparatus for recognizing continuous speech (US patent US 4852170, G10L 5/04, 12/18/1986), based on real-time speech processing by a device in which spectral estimates of each speech segment of a given duration are determined, while each speech segment is analyzed logically for the presence of phonemes and their belonging to a certain class, of which they are a part, and then the frequency spectrum of the segment is analyzed for the presence of features that make it possible to recognize specific phonemes within the type. The phoneme sequence can be stored as compact groups and then transformed to synchronize with the voice of the speaker.

Также известны способ и устройство распознания фонем речи (патент РФ 2268504 С9, опубл. 20.01.2006), основанных на распознавании речи устройством, включающим анализатор биспектра, в котором определяют индивидуальные эталоны каждой фонемы речи, при этом каждую аллофону индивидуальной речи логически анализируют на максимум совпадения при сравнении с каждым эталонном, хранящимся в памяти, и после сравнения принимают решение о принадлежности к определенной фонеме. Последовательность фонем сохраняют в виде компактных групп и затем преобразуют для синхронизации с голосом диктора.Also known is a method and device for recognizing speech phonemes (RF patent 2268504 C9, published January 20, 2006), based on speech recognition by a device including a bispectrum analyzer, in which individual standards of each phoneme of speech are determined, while each allophone of individual speech is logically analyzed to the maximum coincidences when comparing with each reference stored in the memory, and after comparison make a decision on belonging to a specific phoneme. The phoneme sequence is stored in compact groups and then transformed to synchronize with the voice of the speaker.

Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, является система и способ распознавания речи (патент РФ №2466468, опубл. 10.11.2012) для обработки слитного речевого сигнала в режиме реального времени, включающей последовательно исполняемые этапы, согласно которым осуществляют прием речевого сигнала; выполняют его обработку, для чего производят аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, выполняют спектральный анализ сегментов зашумленного речевого сигнала и нормализацию спектра; выделяют в нормализованном спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам классификационных признаков каждого сегмента, с использованием классификации групп фонем на основе комбинаторного набора классификационных признаков, которые характеризуют наличием или отсутствием в речевом сигнале, по меньшей мере, основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует одиннадцать групп фонем с неповторяемым набором классификационных признаков: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, соответствующих комбинаторным наборам классификационных признаков каждого сегмента, далее осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем в текст на основе словаря, размеченного по символам групп фонем.The closest analogue in terms of essential features recognized as a prototype is a speech recognition system and method (RF patent No. 2466468, publ. 10.11.2012) for processing a continuous speech signal in real time, including sequentially executed stages, according to which the reception speech signal; perform its processing, for which an analog-to-digital conversion is performed with a predetermined sampling frequency and divided into quasistationary segments, spectral analysis of the noisy speech signal segments and spectrum normalization are performed; pauses, noises and sound signals are distinguished in the normalized spectrum, then they are classified according to typical groups, for which the presence / absence of classification features, combinatorial sets of which characterize groups of phonemes whose parameters are preset in the block, is determined on the basis of the initial speech signal and the normalized spectrum memory and compare certain combinatorial sets of classification features of the segment with the predefined parameters of phoneme groups, at the same time form the last A sequence of characters denoting phoneme groups, with the simultaneous formation of a sequence of characters denoting phoneme groups corresponding to combinatorial sets of classification features of each segment, using classification of phoneme groups based on a combinatorial set of classification features that characterize the presence or absence of at least pitch, broadband noise, difference in speech intensity, high-frequency noise, sonority, vowel, row and a vowel, the combinatorial combination of which forms eleven phoneme groups with a unique set of classification features: decoupled noisy consonants, decoupled voiced noisy consonants, deaf noisy slit consonants, voiced noisy slit consonants, deaf sibilants, voiced sybilants, nasal and slotted sonants, trembling sonants vowels of the front row, mixed vowels and back row vowels corresponding to combinatorial sets of classification features of each segment, then sequentially by decoding the combinatorial combination of phoneme group symbols into text based on a dictionary marked up by phoneme group symbols.

Основным недостатком данного способа является низкая помехозащищенность к условиям интенсивного зашумления обрабатываемого речевого сигнала, что приводит к ошибкам первого рода для анализа участков речи, где наличие или отсутствие основного тона не является главным классификационным признаком, кроме того, в случае шумового воздействия однородной энергетики проявляются многие классификационные признаки разных групп фонем, основанные на наличии различных видов шумов, вследствие чего происходит снижение достоверности классификации сегментов обрабатываемого речевого сигнала, что в конечном итоге приводит к неверному распознаванию каждого символа, входящего в состав кодового слова.The main disadvantage of this method is the low noise immunity to the conditions of intense noise of the processed speech signal, which leads to errors of the first kind for the analysis of speech areas where the presence or absence of the fundamental tone is not the main classification sign, in addition, in the case of noise exposure to a homogeneous energy, many classification signs of different phoneme groups based on the presence of various types of noise, as a result of which the classification reliability decreases segments of the processed speech signal, which ultimately leads to incorrect recognition of each character that is part of the code word.

Одним общим недостатком, характеризующим все аналоги и прототип, можно выделить низкую достоверность классификации по определенным типовым группам сегментов зашумленной речи в условиях шумового воздействия высокой интенсивности.One common drawback characterizing all analogues and prototype is the low reliability of the classification according to certain typical groups of segments of noisy speech under conditions of high-intensity noise exposure.

Задачей заявленных изобретений является создание способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа и устройства, его реализующего, повышающих достоверность классификации сегментов обрабатываемого зашумленного речевого сигнала по определенным группам фонем.The objective of the claimed inventions is to create a method for classifying segments of a noisy speech signal using multispectral analysis and a device that implements it, increasing the reliability of the classification of segments of a processed noisy speech signal according to certain groups of phonemes.

Эта задача достигается тем, что согласно заявленному способу классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающего последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала; выполняют аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, далее вычисляют Фурье-спектры сегментов зашумленного речевого сигнала и нормализуют его, выделяют в нормализованном Фурье-спектре паузы, шумы и звуковые сигналы, далее производят классификацию по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, отличающийся тем, что используют аппарат полиспектрального анализа, а именно при оценке амплитудного Фурье-спектра (далее Фурье-спектр) речевого сигнала, Фурье-спектр получают через биспектр речевого сигнала, который синтезируют путем двумерного дискретного преобразования Фурье от тройной автокорреляционной функции на участке квазистационарности обрабатываемого зашумленного речевого сигнала с целью частичного подавления гауссовых компонент шумового воздействия, кроме того, на этапе принятия решения классификации обрабатываемого сегмента зашумленного речевого сигнала с задачей отнесения к конкретной группе из 12 (двенадцати) групп фонем или к 1 (одной) группе, характеризующей паузу, вводят процедуру иерархии классификационных признаков групп, для чего вводят весовые коэффициенты, основанные на внутрисимвольных и межсимвольных связях, как в кодовом слове, так и внутри каждого символа и получают их путем оценки статистических и параметрических особенностей, как речевого сигнала, так и шума.This task is achieved by the fact that according to the claimed method for classifying segments of noisy speech using multispectral analysis, which includes sequentially executed steps, according to which a noisy speech signal is received; perform analog-to-digital conversion with a predefined sampling frequency and separation into quasistationary segments, then calculate the Fourier spectra of the segments of the noisy speech signal and normalize it, isolate pauses, noise and sound signals in the normalized Fourier spectrum, then classify them according to typical groups, for which purpose determine, on the basis of the initial speech signal and the normalized spectrum in each segment, the presence / absence of classification features, combinatorial sets of which characterize groups of phonemes whose parameters are predefined in the memory block and compare certain combinatorial sets of classification features of a segment with predefined parameters of phoneme groups, at the same time form sequences of characters representing phoneme groups, characterized in that they use a multispectral analysis apparatus, namely, when evaluating the amplitude Fourier transform spectrum (hereinafter Fourier spectrum) of the speech signal, the Fourier spectrum is obtained through the bispectrum of the speech signal, which is synthesized by a two-dimensional discrete Fourier transform of the triple autocorrelation function in the quasistationary section of the processed noisy speech signal in order to partially suppress the Gaussian components of the noise exposure, in addition, at the stage of deciding the classification of the processed segment of the noisy speech signal with the task of assigning it to a specific group of 12 (twelve) phonemes or 1 (one) group characterizing the pause, they introduce the procedure of hierarchy of classification features of groups, for which weights are introduced, the basis nye on vnutrisimvolnyh and intersymbol connections as in the code word, and within each symbol and receive them by evaluating the statistics and the parametric features as the speech signal and noise.

Заявленный способ характеризуется тем, что на этапе дискретизации устанавливают постоянное значение частоты дискретизации, равное 44100 Гц, кроме того, на этапе сегментации выбирают постоянный период квазистационарности, равный 1024 отсчетам, также при перемещении от сегмента к сегменту используют взаимное окно пересечения соседних сегментов, равное 512 отсчетам, а на этапе спектрального анализа применяют полиспектральный анализ, включающий в себя оценку и работу не только с Фурье-спектром, но и биспектром

Figure 00000001
обрабатываемого зашумленного речевого сигнала, вследствие чего при операциях получения биспектра
Figure 00000002
зашумленного речевого сигнала производят прямое двумерное преобразование Фурье от тройной автокорреляционной функции RU(a,b), и восстановление Фурье-спектра
Figure 00000003
осуществляют непосредственно из самого биспектра зашумленного речевого сигнала, вследствие чего происходит частичное шумоподавление в обрабатываемом речевом сигнале за счет подавления гауссовых компонент шумового воздействия на основании сечения стационарного эргодического случайного процесса по кумулянту третьего порядка. Восстановление Фурье-спектров по оценке биспектра, получаемого косвенным методом, достаточно подробно представлено в (Тоцкий А.В., Астола Я. Восстановление сигналов по оценкам биспектров в присутствии гауссовых и негауссовых помех. Зарубежная радиоэлектроника, 2002, №11, с. 44-58; Никиас Х.Л., Рагувер М.Р. Биспектральное оценивание применительно к цифровой обработке сигналов. ТИИЭР, 1987, Т.75, №7, с. 5-30; Zhang Ji-Wu, Zheng Chong-Xun, and Xie Au, Bispectram analysis of focal ischemic cerebral EEG signal usingthird-order recursion method, IEE Trans. Biomedical Engineering, vol. 47, No. 3, March 2000, pp. 352-359). Тогда нахождение тройной автокорреляционной функции и биспектра осуществляют согласно следующим выражениям:The claimed method is characterized by the fact that at the sampling stage, a constant value of the sampling frequency is set equal to 44100 Hz, in addition, at the segmentation stage, a constant quasistationary period equal to 1024 samples is selected, and when moving from segment to segment, the relative window of intersection of neighboring segments is used, equal to 512 counts, and at the stage of spectral analysis, a multispectral analysis is used, which includes the assessment and work not only with the Fourier spectrum, but also with the bispectrum
Figure 00000001
the processed noisy speech signal, as a result of which, during bispectrum acquisition operations
Figure 00000002
noisy speech signal produce a direct two-dimensional Fourier transform of the triple autocorrelation function R U (a, b), and Fourier spectrum reconstruction
Figure 00000003
they are carried out directly from the bispectrum of the noisy speech signal, as a result of which partial noise reduction occurs in the processed speech signal due to the suppression of the Gaussian components of the noise effect based on the section of a stationary ergodic random process by a third-order cumulant. The restoration of the Fourier spectra from the estimation of the bispectrum obtained by the indirect method is described in sufficient detail in (Totsky A.V., Astola Ya. Restoration of signals according to the estimates of the bispectra in the presence of Gaussian and non-Gaussian interference. Foreign Radio Electronics, 2002, No. 11, p. 44- 58; Nikias H.L., Raguver M.R. Bispectral Evaluation as Applied to Digital Signal Processing, TIIER, 1987, Vol. 75, No. 7, pp. 5-30; Zhang Ji-Wu, Zheng Chong-Xun, and Xie Au, Bispectram analysis of focal ischemic cerebral EEG signal using the third-order recursion method, IEE Trans. Biomedical Engineering, vol. 47, No. 3, March 2000, pp. 352-359). Then, the triple autocorrelation function and the bispectrum are found according to the following expressions:

Figure 00000004
Figure 00000004

Figure 00000005
Figure 00000005

где W(a,b) - оконная функция, используемая для повышения адекватности оценки и уменьшения эффекта растекания биспектра, K - количество отсчетов в сегменте обрабатываемого речевого сигнала, a, b - величины корреляционного сдвига. Кроме того,

Figure 00000006
- комплексная функция двух независимых частотных переменных p,q:where W (a, b) is the window function used to increase the adequacy of the estimate and reduce the spreading effect of the bispectrum, K is the number of samples in the segment of the processed speech signal, a, b are the values of the correlation shift. Besides,
Figure 00000006
is the complex function of two independent frequency variables p, q:

Figure 00000007
Figure 00000007

где

Figure 00000008
- биамплитуда, γU(p,q) - бифаза.Where
Figure 00000008
- biamplitude, γ U (p, q) - biphase.

В случае однородного шумового воздействия, где сам шум представляет собой гауссов случайный процесс или в высокой степени приближен к гауссову процессу, так что его можно аппроксимировать белым гауссовым шумом, то для случая аддитивного шумового воздействия вытекает справедливость частичного шумоподавления на основании сечения обрабатываемого зашумленного речевого сигнала, представленного эргодическим случайным процессом, по кумулянту третьего порядка - асимметрии. В практическом приложении это означает исследование корреляционных связей третьего порядка, которые для гауссовых процессов равны нулю, кроме того, для случайных процессов, приближенных к гауссову процессу, данные характеристики стремятся к нулю и имеют малые значения:In the case of a homogeneous noise exposure, where the noise itself is a Gaussian random process or is very close to a Gaussian process, so that it can be approximated by white Gaussian noise, then for the case of additive noise exposure, partial noise reduction is valid based on the cross section of the processed noisy speech signal, represented by an ergodic random process, according to a third-order cumulant - asymmetry. In a practical application, this means studying correlations of the third order, which are equal to zero for Gaussian processes, in addition, for random processes close to a Gaussian process, these characteristics tend to zero and have small values:

Figure 00000009
Figure 00000009

Figure 00000010
Figure 00000010

где

Figure 00000011
- биспектр «чистого» речевого сигнала,
Figure 00000012
- биспектр шумового воздействия,
Figure 00000013
- спектральная компонента на частоте p Фурье-спектра «чистого» речевого сигнала,
Figure 00000014
- спектральная компонента на частоте p Фурье-спектра шумового воздействия.Where
Figure 00000011
- bispectrum of a "pure" speech signal,
Figure 00000012
- bispectrum of noise exposure,
Figure 00000013
- the spectral component at a frequency p of the Fourier spectrum of the "pure" speech signal,
Figure 00000014
- the spectral component at a frequency p of the Fourier spectrum of the noise exposure.

Амплитудный и фазовый Фурье-спектры восстанавливают из биспектра зашумленного речевого сигнала на основании итерационных рекурсивных алгоритмов посредством проведения медианного и подмедианного разреза биамплитуды и бифазы:The amplitude and phase Fourier spectra are reconstructed from the bispectrum of a noisy speech signal based on iterative recursive algorithms by means of a median and submedian section of biamplitude and biphase:

Figure 00000015
Figure 00000015

Figure 00000016
Figure 00000016

В нормализованном Фурье-спектре каждого сегмента на основе введения процедуры иерархии, основанной на рекурсивных межсимвольных и внутрисимвольных связях кодового слова, описание которых подробно представлено в (О.И. Шелухин, Н.Ф. Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - с. 102-112, с. 123-146; Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учебное пособие для вузов. - М.: Радио и связь, 2003 г. - 144 с.), состоящего из символов, обозначающих группы фонем, определяют наличие/отсутствие классификационных признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, с использованием процедуры иерархии, параметры комбинаторных наборов предустановлены в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов классификационных признаков и весовых коэффициентов сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующих комбинаторным наборам классификационных признаков каждого сегмента.In the normalized Fourier spectrum of each segment based on the introduction of a hierarchy procedure based on recursive intersymbol and intra-character codeword relationships, a description of which is presented in detail in (OI Shelukhin, NF Lukyantsev. Digital processing and transmission of speech. M., Radio and Communications, 2000 - pp. 102-112, pp. 123-146; Bykov S.F., Zhuravlev V.I., Shalimov I.A. Digital Telephony: a textbook for universities. - M .: Radio and communication, 2003 - 144 pp.), consisting of symbols denoting phoneme groups, determine the presence / absence of classification features of speech signal, combinatorial sets of which characterize groups of phonemes, using the hierarchy procedure, the parameters of combinatorial sets are predefined in the memory block, and they compare certain combinatorial sets of classification features and weight coefficients of the segment with the preset parameters of phoneme groups, with the simultaneous formation of a sequence of characters denoting phoneme groups corresponding to combinatorial sets of classification features of each segment.

При классификации сегментов обрабатываемого речевого сигнала по группам фонем используют комбинаторный набор классификационных признаков и весовых коэффициентов, включающий определение наличия или отсутствия в речевом сигнале основного тона, широкополосных шумов, перепада интенсивности речевого сигнала, высокочастотных шумов, сонорности, гласного, ряда гласного, комбинаторное сочетание которых формирует 12 групп фонем с неповторяемым набором классификационных признаков и весовых коэффициентов: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда, аффрикаты. Кроме того, дополнительной обособленной группой вводится пауза, характеризующаяся как отсутствие информативных активных составляющих на протяжении 20(двадцати) сегментов квазистационарности без учета взаимного окна пересечения соседних сегментов или наличием шумового признака и различных шумов на той же длительности.When classifying segments of the processed speech signal by groups of phonemes, a combinatorial set of classification features and weighting factors is used, including determining the presence or absence of the fundamental tone, broadband noise, the difference in the intensity of the speech signal, high-frequency noise, sonority, vowel, vowel series, combinatorial combination of which forms 12 groups of phonemes with a unique set of classification features and weighting coefficients: interrupted deaf noisy consonants clear voiced noisy consonants, deaf noisy slotted consonants, voiced noisy slotted consonants, deaf sibilants, voiced sibilants, nasal and slotted sonants, trembling sonants, front vowels, mixed vowels and back vowels, affricates. In addition, a pause is introduced by an additional separate group, which is characterized as the absence of informative active components for 20 (twenty) quasistationary segments without taking into account the mutual window of intersection of neighboring segments or the presence of a noise sign and various noises for the same duration.

Одной из важнейших классификационных характеристик является наличие основного тона в речевом сигнале. Присутствие основного тона оценивают по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длинной около 5 (пяти) секунд.One of the most important classification characteristics is the presence of a fundamental tone in a speech signal. The presence of the fundamental tone is estimated by the high intensity of the frequency components in the low-frequency region in the range of possible values of the fundamental frequency. The intensity of the frequency components in the current window is determined relative to their maximum intensity in the speech signal over a relatively long length of the speech signal about 5 (five) seconds long.

Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах, в то время как интенсивность речевого сигнала в правом и левом окнах практически одинакова.Short-term differences in the intensity of the speech signal, indicating the presence of short bows in the signal, characteristic of trembling sonants, are determined by the ratio of the intensity of the speech signal in three consecutive processing windows. The intensity of the speech signal in the middle window is significantly lower than the intensity of the speech signal in the right and left windows, while the intensity of the speech signal in the right and left windows is almost the same.

Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники.The presence of broadband noise in a speech signal associated with the pronunciation of slotted consonants or the presence of an explosion occurring during opening the bow when pronouncing the consonant consonants is determined by the presence of intense frequency components in the range above the possible values of the fundamental frequency and its first harmonic.

Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов, определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.The presence of high-frequency noise in a speech signal associated with the pronunciation of slotted sibilants is determined in the range above the possible values of the frequency of the fundamental tone and its first harmonic, in relation to the intensity of the frequency components in the middle frequency region and the intensity of the frequency components in the high frequency region. The intensity of high-frequency noise significantly exceeds the intensity of medium frequencies in the case of pronouncing slotted sibilants.

Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов.The sonority of a speech signal, characteristic of pronouncing sonants and vowels, as opposed to noisy consonants, is determined by the high intensity of the frequency components in the mid-frequency range above the low-frequency region in the range of possible frequencies of the fundamental tone, but containing the range of possible frequencies of the formants of the sonants.

Еще одним классификационным признаком, используемым при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих ниже и выше частотного порога.Another classification feature used in speech recognition and for characterizing phoneme groups is the absence or presence of harmonic components in the spectrum in the frequency domain above the range of possible frequencies of the formants of the sonants. The absence of harmonic components in the mid and high frequencies is characteristic of the sonants, and the presence of vowels. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components below and above the frequency threshold.

Другой важной классификационной характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного переднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.Another important classification characteristic of speech sounds is the quality of a vowel that has been pronounced, namely, the number of pronunciations, i.e. the position of the bulk of the tongue in the oral cavity in a horizontal position. A number of vowel pronunciations is determined by the ratio of the intensity of the harmonic components in the spectrum of the speech signal in the low frequency region, the middle frequency region and the high frequency region. The absence of harmonic components in the spectrum of the speech signal in the mid-range and high-frequency region indicates the pronunciation of the back vowel. The presence of harmonic components in the spectrum of the speech signal in the mid-frequency region indicates the pronunciation of the vowel middle series. The simultaneous presence of harmonic components in the spectrum of the speech signal in the low-frequency region and in the high-frequency region and their absence in the middle-frequency region indicates the pronunciation of the front vowel. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components in the low frequency region, the middle frequency region and the high frequency region.

В заявленном изобретении используют следующие классификационные группы сегментов обрабатываемого зашумленного речевого сигнала: смычные глухие шумные согласные (O), смычные звонкие шумные согласные (B), глухие шумные щелевые согласные (С), звонкие шумные щелевые согласные (D), глухие сибилянты (E), звонкие сибилянты (F), носовые и щелевые сонанты (G), дрожащие сонанты (Н), гласные переднего ряда (I), гласные смешанного ряда (L) и гласные заднего ряда (K), аффрикаты (М), пауза (N). В скобках указан условный символ классификационной группы.In the claimed invention, the following classification groups of segments of the processed noisy speech signal are used: decoupled noisy noisy consonants (O), decoupled noisy noisy consonants (B), deaf noisy slotted consonants (C), voiced noisy slotted consonants (D), deaf sibilants (E) , voiced sybilants (F), nasal and slit sonants (G), trembling sonants (H), front row vowels (I), mixed row vowels (L) and back row vowels (K), affricates (M), pause (N) ) The conditional symbol of the classification group is indicated in parentheses.

Смычные глухие шумные согласные (O) определяют с использованием следующих классификационных признаков: отсутствие основного тона и широкополосных шумов, что характеризуется смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.Closed-up blind noisy consonants (O) are determined using the following classification features: the absence of pitch and broadband noise, which is characterized by a bow, that is, the actual absence of a speech signal, and subsequent short-term wide-band noise. The closed, dull, noisy consonants differ from the pauses between words with the length of the bow, which is much shorter than the pause between words, and the presence of a subsequent explosion, characterized by short-term wide-band noises.

Смычные звонкие шумные согласные (B) определяют следующими классификационными признаками: наличием основного тона и отсутствием широкополосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.Bowed voiced noisy consonants (B) are determined by the following classification features: the presence of the fundamental tone and the absence of broadband noise at the site of the bow, as well as subsequent short-term wideband noise at the site of the explosion.

Глухие шумные щелевые согласные (C) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Deaf noisy slotted consonants (C) are determined by the following classification features: lack of pitch, presence of broadband noise, lack of high-frequency noise, lack of sonority.

Звонкие шумные щелевые согласные (D) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Voiced noisy slotted consonants (D) are determined by the following classification features: the presence of the fundamental tone, the presence of broadband noise, the absence of high-frequency noise, and the absence of sonority.

Глухие сибилянты (Е) определяют следующими классификационными признаками: отсутствием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.Deaf sibilants (E) are determined by the following classification features: lack of pitch, presence of broadband noise, presence of high-frequency noise, lack of sonority.

Звонкие сибилянты (F) определяют следующими классификационными признаками: наличием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.Voiced sibilants (F) are determined by the following classification features: the presence of the fundamental tone, the presence of broadband noise, the presence of high-frequency noise, and the absence of sonority.

Носовые и щелевые сонанты (G) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой отсутствия гласного.Nasal and fissured sonants (G) are determined by the following classification features: the presence of the fundamental tone, the presence of sonorrhea, and the classification characteristic of the absence of a vowel.

Дрожащие сонанты (Н) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.Trembling sonants (H) are determined by the following classification features: the presence of the fundamental tone, the presence of sonority, the presence of a difference in the intensity of the speech signal.

Гласные переднего ряда (I) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой переднего ряда гласного.Vowels of the front row (I) are determined by the following classification features: the presence of the fundamental tone, the presence of sonority, the classification characteristic of the presence of the vowel, the classification characteristic of the front row of the vowel.

Гласные смешанного ряда (L) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой смешанного ряда гласного.Mixed vowels (L) are determined by the following classification features: the presence of the fundamental tone, the presence of sonority, the classification characteristic of the presence of a vowel, the classification characteristic of a mixed vowel series.

Гласные заднего ряда (К) определяют следующими классификационными признаками: наличием основного тона, наличием сонорности, классификационной характеристикой присутствия гласного, классификационной характеристикой заднего ряда гласного.The vowels of the back row (K) are determined by the following classification features: the presence of the basic tone, the presence of sonority, the classification characteristic of the presence of the vowel, the classification characteristic of the back row of the vowel.

Аффрикаты (М) определяют как последовательное произнесение соответствующих смычного и щелевого согласного, т.е. /ц/ - это комбинация /т/ и /с/, а /ч/ - это комбинация /т/ и /ш/.Affricates (M) are defined as the sequential pronunciation of the corresponding occlusal and crevice consonants, i.e. / c / is a combination of / t / and / s /, and / h / is a combination of / t / and / w /.

Паузу (N) определяют как многократное повторение характеристического признака b - отсутствие сигнала на протяжении 20 сегментов квазистационарности, в условиях зашумления паузу определяют при многократном повторении на той же длительности признака наличия различных невокализованных шумоподобных сегментов и шумового признака.Pause (N) is defined as repeated repetition of characteristic sign b - the absence of a signal over 20 segments of quasi-stationarity; under noisy conditions, a pause is determined upon repeated repetition at the same duration of a sign of the presence of various unvoiced noise-like segments and a noise sign.

В заявленном изобретении используют следующие классификационные признаки групп:The following classification features of the groups are used in the claimed invention:

a 0 - наличие основного тона; a 1 - наличие гармонических составляющих в области первой форманты; а 2 - наличие гармонических составляющих в области второй форманты; а 3 - наличие гармонических составляющих слабой интенсивности; b - отсутствие сигнала; с - наличие перепадов; d - широкополосные шумы; е - краткие шумы; f - высокочастотные шумы; g - наличие сонорности; n - наличие шума. a 0 - the presence of the fundamental tone; a 1 - the presence of harmonic components in the field of the first formant; and 2 - the presence of harmonic components in the field of the second formant; and 3 - the presence of harmonic components of low intensity; b - lack of signal; with - the presence of differences; d - broadband noise; e - brief noises; f - high-frequency noise; g - the presence of drowsiness; n is the presence of noise.

Кроме того, в заявленном изобретении вводят весовые коэффициенты, определяющие иерархию, основанную на параметрических свойствах речевых сигналов и шумов:In addition, the claimed invention introduces weight coefficients that define a hierarchy based on the parametric properties of speech signals and noise:

Figure 00000017
Figure 00000017

где R:1 - подтверждение наличия кратких шумов, 0 - наличие кратких шумов ложно;where R: 1 - confirmation of the presence of short noise, 0 - the presence of short noise is false;

S:1 - подтверждение наличия широкополосных шумов, 0 - наличие широкополосных шумов ложно;S: 1 - confirmation of the presence of broadband noise, 0 - the presence of broadband noise is false;

Т:1 - подтверждение наличия высокочастотных шумов, 0 - наличие высокочастотных шумов ложно;T: 1 - confirmation of the presence of high-frequency noise, 0 - the presence of high-frequency noise is false;

V:1 - подтверждение наличия сонорности, 0 - наличие сонорности ложно.V: 1 - confirmation of the presence of drowsiness, 0 - the presence of drowsiness is false.

Также существует факт ложной вокализации, например смычных глухих шумных согласных, стоящих в слове после гласных звуков, в связи с чем вводят признак иерархии, основанный на статистике вокализованных и невокализованных элементов речи, приведенной в таблице на фиг. 1:There is also the fact of false vocalization, for example, phonetic deaf noisy consonants standing in a word after vowels, in connection with which they introduce a hierarchy attribute based on statistics of voiced and unvoiced speech elements shown in the table in FIG. one:

W:1 - подтверждение наличия основного тона, 0 - наличие основного тона ложно.W: 1 - confirmation of the presence of the fundamental tone, 0 - presence of the fundamental tone is false.

Все признаки (учитывая весовые коэффициенты) и классификация 12 (двенадцати) групп фонем и 1 (одной) группы, характеризующей паузу, приведены на фиг. 2 и могут быть записаны в виде следующих выражений:All signs (taking into account weights) and classification of 12 (twelve) phoneme groups and 1 (one) group characterizing a pause are shown in FIG. 2 and can be written in the form of the following expressions:

Figure 00000018
Figure 00000018

Способ, заявленный в изобретении, можно представить в виде алгоритма (фигура 3), в соответствии с которым выделяют следующие этапы обработки зашумленного речевого сигнала с целью проведения классификации по определенным группам:The method claimed in the invention can be represented in the form of an algorithm (figure 3), in accordance with which the following stages of processing a noisy speech signal are distinguished in order to carry out classification in certain groups:

I) Прием речевого сигнала U(t);I) Reception of a speech signal U (t);

II) Дискретизация речевого сигнала U(kT);II) Sampling of the speech signal U (kT);

III) Сегментация речевого сигнала с учетом взаимного окна пересечения соседних сегментов анализа;III) The segmentation of the speech signal, taking into account the mutual window of intersection of neighboring segments of the analysis;

IV) Вычисление значений тройной автокорреляционной функции (ТАКФ) RU(a,b);IV) Calculation of the values of the triple autocorrelation function (TACF) R U (a, b);

V) Синтез биспектра BU(p,q), получаемого путем преобразования Фурье от ТАКФ;V) Synthesis of the bispectrum B U (p, q) obtained by the Fourier transform of TAKF;

VI) Получение биамплитуды

Figure 00000019
и бифазы γ(p,q);VI) Obtaining biamplitude
Figure 00000019
and bifase γ (p, q);

VII) Восстановление амплитудного Фурье-спектра

Figure 00000020
VII) Recovery of the amplitude Fourier spectrum
Figure 00000020

VIII) Нормализация амплитудного Фурье спектра

Figure 00000021
VIII) Normalization of the amplitude Fourier spectrum
Figure 00000021

IX) Выделение сегментных классификационных признаков: а0, a1, а2, а3, а4, b, с, d, f, g, n;IX) Isolation of segment classification features: a 0, a 1, a 2, a 3, a 4, b, c, d, f, g, n;

X) Расчет весовых коэффициентов: R, S, Т, V;X) Calculation of weighting factors: R, S, T, V;

XI) Оценка весового коэффициента - W;XI) Weighting Ratio - W;

XII) Коррекция сегментных классификационных признаков;XII) Correction of segment classification features;

XIII) Принятие решения по вопросу классификации.XIII) Decision making regarding classification.

Задача изобретений достигается и тем, что устройство, реализующее способ классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающее блок приема зашумленного речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, который соединен с блоком управления, блоком памяти и блоком определения классификационных признаков групп фонем с целью формирования последовательности символов, обозначающих группы фонем, выполненный с обеспечением возможности формирования по текущим комбинаторным сочетаниям классификационных признаков, присутствующих в речевом сигнале соответствующей им последовательности символов и записи кодового слова, размеченного по символам групп фонем и вызываемого из блока памяти, при этом все блоки соединены с блоком управления, который обеспечивает возможность управления режимами функционирования блоков, обмена данными между ними и взаимодействия с блоком памяти, отличающееся тем, что используется блок сегментации речевого сигнала, учитывающий взаимное окно пересечения соседних сегментов по количеству отсчетов, соединенный с совокупностью блоков полиспектрального анализа, включающей блок корреляции третьего порядка, выход которого соединен с входом блока прямого преобразования Фурье, выход которого соединен с входом блока восстановления Фурье-спектра амплитуд из оценки биспектра, выход которого соединен с входом блока определения сегментных классификационных признаков; также дополнительным введением блока коррекции классификационных признаков, блоков параметрической и статистической иерархии и блока хранения кратковременных данных; кроме того, в блоке определения классификационных признаков групп фонем реализована процедура выявления шумового признака, данные блоки соединены между собой множественными рекурсивными связями, учитывающими внутрисимвольную и межсимвольную связь в формируемой последовательности с выхода блока формирования последовательности символов.The invention is also achieved by the fact that a device that implements a method for classifying segments of noisy speech using multispectral analysis, including a unit for receiving a noisy speech signal, connected in series with an analog-to-digital converter, which is connected to a control unit, a memory unit and a unit for determining classification features of phoneme groups in order to form a sequence of characters denoting phoneme groups, made with the possibility of forming according to current com binator combinations of classification features present in the speech signal of the corresponding sequence of characters and the recording of a code word labeled by the symbols of phoneme groups and called from the memory block, while all the blocks are connected to the control unit, which makes it possible to control the operating modes of the blocks and exchange data between them and interacting with a memory unit, characterized in that a speech signal segmentation unit is used, taking into account the mutual window of intersection of adjacent segments according to the number of samples, connected to a set of multispectral analysis blocks, including a third-order correlation block, the output of which is connected to the input of the direct Fourier transform block, the output of which is connected to the input of the Fourier spectrum reconstruction of the amplitude spectrum from the bispectrum estimate, the output of which is connected to the input of the determination block segment classification features; also the additional introduction of a block for the correction of classification features, blocks of a parametric and statistical hierarchy and a block for storing short-term data; in addition, in the block for determining the classification features of phoneme groups, a noise sign identification procedure is implemented, these blocks are interconnected by multiple recursive links that take into account the intrasymbol and intersymbol communication in the generated sequence from the output of the character sequence forming unit.

Также на фигуре 3 представлена блок-схема устройства с привязкой к алгоритму на основе заявленного способа классификации сегментов зашумленного речевого сигнала с использованием полиспектрального анализа:Also, FIG. 3 shows a block diagram of a device with reference to an algorithm based on the claimed method for classifying segments of a noisy speech signal using multispectral analysis:

1) Уровень управляющих воздействий и предустановленных классификационных признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства), имеющий технологически в своем составе:1) The level of control actions and predefined classification features (the ability to implement the total processor constant memory), which is technologically composed:

1 - блок управления (функционально соединенный с блоком 15),1 - control unit (functionally connected to block 15),

2 - блок хранения классификационных признаков на основе базы данных;2 - block storage of classification features based on the database;

2) Этап приема непрерывного сигнала речи, имеющий технологически в составе:2) The step of receiving a continuous speech signal, which is technologically composed of:

3 - блок приема непрерывного сигнала речи (возможно разграничение на технические подуровни, например, не только акустоэлектрическое преобразование, но и ограничение по входному уровню);3 - a unit for receiving a continuous speech signal (it is possible to differentiate into technical sublevels, for example, not only acoustoelectric conversion, but also restriction on the input level);

3) Этап аналого-цифрового преобразования и сегментации речевого сигнала, имеющий технологически в составе:3) The stage of analog-to-digital conversion and segmentation of a speech signal, having technologically composed:

4 - блок аналого-цифрового преобразования,4 - block analog-to-digital conversion,

5 - блок сегментации дискретного обрабатываемого речевого сигнала на сегменты квазистационарности с учетом взаимных окон пересечения соседних сегментов;5 - block segmentation of a discrete processed speech signal into quasistationary segments, taking into account the mutual windows of intersection of neighboring segments;

4) Этап полиспектрального анализа речевого сигнала при последовательно-параллельной обработке, технологически имеющий в своем составе и функционально 2 (два) уровня:4) The stage of multispectral analysis of the speech signal during serial-parallel processing, technologically having in its composition and functionally 2 (two) levels:

4.1) Уровень косвенного получения биспектра обрабатываемого сегмента речевого сигнала, имеющий технологически в своем составе:4.1) The level of indirect acquisition of the bispectrum of the processed segment of the speech signal, having technologically in its composition:

6-1…6-16 - блоки корреляции третьего порядка,6-1 ... 6-16 - correlation blocks of the third order,

7-1…7-16- блоки преобразования Фурье;7-1 ... 7-16- blocks of the Fourier transform;

4.2) Уровень определения сегментных классификационных признаков, имеющих технологически в своем составе:4.2) The level of determination of segmented classification features that are technologically composed:

8-1…8-16 - блоки восстановления Фурье-спектра по оценке биспектра обрабатываемого сегмента зашумленного речевого сигнала,8-1 ... 8-16 - Fourier spectrum reconstruction blocks according to the evaluation of the bispectrum of the processed segment of a noisy speech signal,

9-1…9-16 - блоки нормализации Фурье-спектра,9-1 ... 9-16 - normalization blocks of the Fourier spectrum,

10-1…10-16 - блоки определения сегментных классификационных признаков, имеющий в своем составе гребенку полосовых фильтров, физически выполняющих функцию детекции амплитудных значений нормализованного Фурье-спектра, уровни которого предустановлены в блоке 2;10-1 ... 10-16 - blocks for determining segmented classification features, comprising a comb of band-pass filters that physically perform the function of detecting the amplitude values of the normalized Fourier spectrum, the levels of which are predefined in block 2;

5) Этап коррекции классификационных признаков на основе параметрической и статистической иерархии признаков (возможность реализации по совокупности процессора постоянного запоминающего устройства (ПЗУ)), имеющий технологически в своем составе:5) The stage of correction of classification features based on the parametric and statistical hierarchy of signs (the possibility of implementing a combination of a processor of read-only memory (ROM)), which has the following technologically:

11-1…11-16 - блоки коррекции классификационных признаков,11-1 ... 11-16 - blocks for the correction of classification features,

12-1…12-16 - блоки статистической иерархии,12-1 ... 12-16 - blocks of the statistical hierarchy,

13-1…13-16 - блоки параметрической иерархии,13-1 ... 13-16 - blocks of the parametric hierarchy,

14 - блок хранения кратковременных данных (реализация возможна на оперативном запоминающем устройстве) об межсимвольных и внутрисимвольных связях;14 - block storage of short-term data (implementation is possible on random access memory) about intersymbol and intrasymbol communications;

6) Этап принятия решения по вопросу классификации по откорректированным классификационным признакам имеет технологически в своем составе:6) The decision-making stage on the classification according to the adjusted classification criteria is technologically composed of:

15 - блок принятия решения (возможна реализация на базе процессора),15 - decision block (implementation based on the processor is possible),

16 - блок формирования последовательности символов, характеризующих определенные классификационные группы.16 is a block forming a sequence of characters characterizing certain classification groups.

Процедуры приема, аналого-цифрового преобразования и сегментации речевого сигнала и их реализация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Описание формирования и приема кадра передачи, выполняемых блоками 3, 4, 5, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87).The procedures for receiving, analog-to-digital conversion and segmentation of a speech signal and their implementation are described in detail in (Solonina A.I., Ulakhovich D.A., Arbuzov S.M., Solovieva E.B. Fundamentals of digital signal processing: Lecture course. - SPb .: BHV - Petersburg, 2003 .-- p. 425-446). A description of the formation and reception of the transmission frame performed by blocks 3, 4, 5 is presented in (Bykov S.V., Zhuravlev V.I., Shalimov I.A.Digital telephony: Textbook for universities. - M .: Radio and Communication, 2003 .-- S. 79-87).

Реализация совокупности блоков 1, 2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 возможна на базе модуля TORNADO-P64, который разработан компанией "МикроЛАБ Системе" (www.mlabsys.com) Цифровая обработка сигналов CHIP NEWS Жучков К., Хоружий С., Чепель Е. Полиспектральный анализатор сигналов на базе модуля цифрового сигнального процессора TMS320C6416).The implementation of the set of blocks 1, 2, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 is possible on the basis of the TORNADO-P64 module, which was developed by MicroLAB System (www.mlabsys.com) Digital signal processing CHIP NEWS Zhuchkov K., Khoruzhiy S., Chepel E. Multispectral signal analyzer based on the digital signal processor module TMS320C6416).

Устройство, реализующее заявленный способ, работает следующим образом (Фиг. 3):A device that implements the claimed method works as follows (Fig. 3):

Непрерывный зашумленный акустический сигнал речи поступает на вход блока 3, в котором происходит его акустоэлектрическое преобразование и ограничение по входному уровню. Полученный непрерывный электрический сигнал с выхода блока 3 поступает на вход блока аналого-цифрового преобразования 4, в котором осуществляется получение дискретных отсчетов речевого сигнала с частотой дискретизации, равной 44100 Гц, последовательность дискретных отсчетов с выхода блока 4 поступает на вход блока сегментации 5, где происходит разделение последовательности отсчетов на сегменты квазистационарности по 1024 отсчета с учетов взаимного окна пересечения соседних сегментов, равного 512 отсчетам, далее с выхода блока 5 посегментно речевой сигнал поступает на входы блоков корреляции третьего порядка 6, каждой из параллельных ветвей обработки речевого сигнала, где осуществляется нахождение тройной автокорреляционной функции для каждого сегмента квазистационарности, с выхода блока 6 на вход блока двумерного преобразования Фурье 7 поступает последовательность значений тройной автокорреляционной функции, где происходит процедура нахождения значений биспектра речевого сигнала для каждого сегмента квазистационарности косвенным методом, с выхода блока 7 на вход блока восстановления значений Фурье-спектров 8 поступают комплексные значения биспектра каждого сегмента речевого сигнала, где происходит разделение биспектра на биамплитуду и бифазу каждого сегмента квазистационарности с дальнейшим нахождением значений Фурье-спектров на основе итерационных алгоритмов получения значений Фурье спектров из оценок биспектра, с выхода блока 8 на вход блока нормализации Фурье-спектра 9 поступает последовательность значений Фурье-спектров, где происходит процедура нормализации путем деления значений на максимальное значение, полученное при анализе всех значений Фурье-спектров различных сегментов квазистационарности, на общей длительности которых, равной 5 (пяти) секундам, с выхода блока 9 на вход блока нахождения сегментных классификационных признаков 10 поступает последовательность значений нормализованного Фурье-спектра амплитуд, в котором путем сравнения с различными порогами выделяют наличие или отсутствие того или иного классификационного признака (в случае наличия признака поступает сигнал логической единице, в противном случае 0), с выхода блока 10 на вход блока хранения кратковременных данных 14 поступает информация в виде последовательности 1 и 0, характеризующих наличие или отсутствие тех или иных классификационных признаков каждого анализируемого сегмента квазистационарности, а также абсолютные значения, полученные во время измерения того или иного признака, в блоке 14 хранится информация о корреляционных связях между сегментами квазистационарности и рекурсивных связях между символами в кодовом слове (фразе), поступающая с выхода блока принятия решения по вопросу классификации 15, а также абсолютные значения, полученные во время измерения того или иного признака, кроме того, с выхода блока 10 информация о сегментных классификационных признаков поступает на вход блока коррекции классификационных признаков 11, кроме того, на вход блока 11 поступает информация об иерархии классификационных признаков каждого обрабатываемого сегмента квазистационарности с выхода блока статистической иерархии 12 и с выхода блока параметрической иерархии 13, на входы блоков 12 и 13 поступает информация о корреляционных и рекурсивных связях в кодовом символьном слове и между обрабатываемыми сегментами квазистационарности, а также абсолютные значения измеренных признаков, в блоках 12 и 13 происходит вычисление весовых коэффициентов, которые и поступают на вход блока коррекции классификационных признаков 11, в блоке 11 на основании значений весовых коэффициентов происходит выявление значимых и незначимых классификационных признаков, с выхода блока 11 информация обо всех классификационных признаках поступает на вход блока принятия решения, в котором происходит принятие решения по вопросу классификации обрабатываемого сегмента, с выхода блока 15 информация поступает на вход блока хранения кратковременных данных 14 и на вход блока формирования последовательности символов кодового слова, с выхода блока 16 информация в виде символов, обозначающих различные 13 (тринадцать) классификационных групп, 12 (двенадцать) из которых группы фонем и 1 (одна) группа, характеризующая паузу. Блок управления 1 работает в режиме реального времени и осуществляет общий контроль над всеми процедурами, задействованными в принятии решения по вопросу классификации, он соединен с обратной связью с блоком принятия решения 15. Блок хранения классификационных признаков на основе базы данных 2 выполнен на основе постоянного запоминающего устройства и хранит информацию о комбинаторных наборах классификационных признаков и весовых коэффициентов, характеризующие тринадцать классификационных групп, блок 2 функционально соединен с блоками 10, 11, 15.A continuous noisy acoustic speech signal is fed to the input of block 3, in which its acoustoelectric conversion and limitation by input level take place. The received continuous electrical signal from the output of block 3 is fed to the input of the analog-to-digital conversion unit 4, in which discrete samples of the speech signal are obtained with a sampling frequency of 44100 Hz, a sequence of discrete samples from the output of block 4 is fed to the input of the segmentation block 5, where dividing the sequence of samples into quasistationary segments of 1024 samples, taking into account the mutual window of intersection of neighboring segments, equal to 512 samples, then from the output of block 5, segment by segment the speech signal is fed to the inputs of the third-order correlation blocks 6, each of the parallel branches of the speech signal processing, where the triple autocorrelation function for each quasistationary segment is found, from the output of block 6, the sequence of values of the triple autocorrelation function, where the the procedure for finding the values of the bispectrum of the speech signal for each quasistationary segment by the indirect method, from the output of block 7 to the input of the block and the restoration of the values of the Fourier spectra 8 receives the complex values of the bispectrum of each segment of the speech signal, where the bispectrum is divided into the bi-amplitude and biphase of each segment of the quasistationarity with further determination of the Fourier spectra based on iterative algorithms for obtaining the Fourier spectra from the estimates of the bispectrum, from the output of block 8 the input of the normalization block of the Fourier spectrum 9 receives a sequence of values of the Fourier spectra, where the normalization procedure occurs by dividing the values by max the maximum value obtained in the analysis of all values of the Fourier spectra of various quasistationary segments, for a total duration of 5 (five) seconds, from the output of block 9 to the input of the block for finding segment classification features 10, a sequence of values of the normalized Fourier spectrum of amplitudes is received, in which by comparing with different thresholds, the presence or absence of one or another classification feature is distinguished (in the case of the presence of a feature, a signal is given to a logical unit, otherwise 0), from the output of block 10 to the input of the short-term data storage unit 14, information is received in the form of a sequence of 1 and 0, characterizing the presence or absence of certain classification features of each analyzed quasi-stationarity segment, as well as the absolute values obtained during the measurement of a particular attribute in the block 14, information is stored on correlation relationships between quasistationary segments and recursive relationships between symbols in a codeword (phrase), coming from the output of the decision block on classification axis 15, as well as the absolute values obtained during the measurement of a particular characteristic, in addition, from the output of block 10, information about segment classification signs is fed to the input of the classification signs correction block 11, in addition, information about the hierarchy is received of the classification features of each processed quasistationary segment from the output of the block of the statistical hierarchy 12 and from the output of the block of the parametric hierarchy 13, the inputs of the blocks 12 and 13 receive information about the correlation recursive relationships in the code symbolic word and between the processed quasistationary segments, as well as the absolute values of the measured features, in blocks 12 and 13 the weighting coefficients are calculated, which are fed to the input of the classification features correction block 11, in block 11, the weighting coefficients are detected significant and insignificant classification signs, from the output of block 11, information about all classification signs is fed to the input of the decision block in which A decision is made on the classification of the segment to be processed, from the output of block 15, the information goes to the input of the short-term data storage unit 14 and to the input of the block for generating a sequence of codeword symbols, from the output of block 16 information in the form of symbols denoting various 13 (thirteen) classification groups, 12 (twelve) of which are phoneme groups and 1 (one) is a group characterizing a pause. The control unit 1 operates in real time and exercises general control over all the procedures involved in deciding on the classification; it is connected with feedback to the decision unit 15. The storage unit for classification features based on database 2 is based on read-only memory and stores information on combinatorial sets of classification features and weighting factors characterizing thirteen classification groups, block 2 is functionally connected to the blocks 10, 11, 15.

При проведении классификации в условиях отсутствия или слабого шумового воздействия правила принятия решения, предложенные в прототипе, имеют высокую достоверность распознания порядка 95%, однако в условиях воздействия шума высокой интенсивности наблюдается снижение достоверности вследствие появления множественных классификационных признаков, что приводит к неверному определению групп фонем, и при соотношении сигнал/шум 0 дБ достоверность способа распознания, применяемого в прототипе, падает до значения 67%, что приводит к появлению ситуации неадекватных решений.When conducting a classification in the absence or low noise exposure, the decision rules proposed in the prototype have a high recognition accuracy of about 95%, however, under conditions of exposure to high intensity noise, a decrease in reliability is observed due to the appearance of multiple classification features, which leads to incorrect determination of phoneme groups, and when the signal-to-noise ratio is 0 dB, the reliability of the recognition method used in the prototype drops to a value of 67%, which leads to iteration of inadequate decisions.

Для оценки эффекта, получаемого при введении различных действий над обрабатываемым речевым сигналом, берутся такие, как диапазон значений отношения сигнал/шум (ОСШ), характеризующийся минимальным пороговым значением по достоверности, равный 90%, и выигрыш в среднем по эффективному диапазону ОСШ по достоверности, так как повышение достоверности является техническим результатом, достигаемым предложенными изобретениями.To evaluate the effect obtained by introducing various actions on the processed speech signal, we take such as the range of signal-to-noise ratio (SNR), characterized by the minimum threshold value for reliability, equal to 90%, and the average gain over the effective range of SNR for reliability, since the increase in reliability is a technical result achieved by the proposed inventions.

На фигуре 4 представлен график зависимости достоверности правильной классификации от соотношения сигнал шум способа, предложенного в заявленном изобретении, прототипа и аналогов.The figure 4 presents a graph of the reliability of the correct classification on the signal-to-noise ratio of the method proposed in the claimed invention, the prototype and analogues.

Его анализ позволяет сделать вывод о том, что прототип по своим функциональным особенностям превосходит все аналоги, что говорит о правильности выбранного прототипа (в дальнейшем оценка эффективности по повышению средней достоверности будет произведена между способом по п. 5 и прототипом).Its analysis allows us to conclude that the prototype in terms of its functional features surpasses all analogues, which indicates the correctness of the selected prototype (in the future, the effectiveness assessment to increase the average reliability will be made between the method according to claim 5 and the prototype).

Перед непосредственным расчетом повышения в среднем достоверности классификации необходимо отметить, что для расчета будем использовать не весь диапазон, представленный на фигуре 4 от - 15 до 45 дБ, а эффективный диапазон ОСШ, при котором выполняются минимальные требования относительно порога по достоверности 90%, т.е. от 0 до 45 дБ. Оценку среднего повышения достоверности AD,% будем проводить согласно следующему выражению:Before directly calculating the increase in the average reliability of the classification, it should be noted that for the calculation we will use not the entire range presented in figure 4 from - 15 to 45 dB, but the effective range of the SNR at which the minimum requirements regarding the threshold for reliability of 90% are fulfilled, i.e. e. from 0 to 45 dB. Evaluation of the average increase in the reliability of AD,% will be carried out according to the following expression:

Figure 00000022
Figure 00000022

Ri - значение достоверности способа по пункту №5 от i-го соотношения сигнал/шум;Ri is the value of the reliability of the method according to paragraph 5 of the i-th signal-to-noise ratio;

Pi - значение достоверности прототипа от i-го соотношения сигнал/шумPi - the reliability value of the prototype from the i-th signal-to-noise ratio

ΔD=5.269230769230769%ΔD = 5.269230769230769%

Исходя из проведенной оценки эффективности предложенного способа, согласно решению изобретательской задачи, можно с уверенностью сказать, что предложенный способ позволяет осуществлять классификацию сегментов обрабатываемого зашумленного речевого сигнала в увеличенном на 7 дБ в диапазоне значений отношения сигнал/шум (предложенный в изобретении способ позволяет проводить правильную классификацию сегментов зашумленной речи при более малых отношениях сигнал/шум) со средним повышением достоверности правильной классификации на ≈5.3%.Based on the assessment of the effectiveness of the proposed method, according to the solution of the inventive problem, we can confidently say that the proposed method allows the classification of segments of the processed noisy speech signal in an increase of 7 dB in the range of signal-to-noise ratios (the method proposed in the invention allows correct classification segments of noisy speech at lower signal-to-noise ratios) with an average increase in the accuracy of the correct classification by ≈5.3%.

Достоверность технического результата подтверждена сведениями экспериментального характера, полученными в ходе испытаний (использовались различные записи речевых сигналов, которые подвергались аддитивному зашумлению белым гауссовым шумом при различных отношениях сигнал/шум (ОСШ), данные зашумленные сигналы подвергались многократным испытаниям в сравнительном характере между различными способами, реализованными в программной среде MATLAB) по принятым в отрасли стандартным методикам (согласно ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997 г. - 230 с.), которые показали, что применение данного способа позволяет повысить достоверность классификации сегментов зашумленной речи по группам фонем.The reliability of the technical result is confirmed by experimental information obtained during the tests (various recordings of speech signals were used, which were subjected to additive noise by white Gaussian noise at different signal-to-noise ratios (SNR), these noisy signals were subjected to repeated tests in a comparative manner between different methods implemented in MATLAB software environment) according to industry standard methods (according to GOST R 51061-97 Low-speed transfer systems Achi speech on digital channels of voice quality parameters and test methods -.. M .: State Standard of Russia, in 1997 - 230), which showed that the use of this method can improve the accuracy of the classification segments noisy speech by groups of phonemes..

Сравнительный анализ работы прототипа и способа по п. 5 проиллюстрирован на фигурах 5-7 (не является исчерпывающим):A comparative analysis of the operation of the prototype and the method according to claim 5 is illustrated in figures 5-7 (is not exhaustive):

Пример классификации обрабатываемых сегментов на примере слова «КОКОШНИК»Classification example of processed segments using the example “KOKOSHNIK”

Слово «кокошник»:The word "kokoshnik":

- орфографическая запись: кокошник;- spelling notation: kokoshnik;

- фонемная транскрипция: /к’ак’ошн’ик/;- phoneme transcription: / k’ak’oshn’ik /;

- символьная транскрипция на основе признаков групп фонем:- symbolic transcription based on the characteristics of phoneme groups:

NNOKOLEGIONN, где NN - наличие длительной паузы до и после произнесенного слова.NNOKOLEGIONN, where NN is the presence of a long pause before and after the spoken word.

На фиг. 5 представлена работа прототипа и способа по пункту 5 в условиях отсутствия помех:In FIG. 5 shows the operation of the prototype and method according to paragraph 5 in the absence of interference:

1) разметка речевого сигнала на аллофоны;1) marking the speech signal to allophones;

2) выявление классификационных признаков;2) identification of classification features;

3) принятие решения по вопросу классификации сегментов по определенным группам: NNOKOLEGIONN.3) decision-making on the classification of segments into specific groups: NNOKOLEGIONN.

Как видно из фигуры 5, прототип и способ по п. 5 обеспечивают высокую достоверность классификации в условиях отсутствия шумового воздействия.As can be seen from figure 5, the prototype and method according to p. 5 provide a high reliability classification in the absence of noise exposure.

На фигуре 6 представлена работа прототипа в условиях интенсивного зашумления (отношение сигнал/шум 0 дБ):The figure 6 shows the work of the prototype in conditions of intense noise (signal-to-noise ratio 0 dB):

1) разметка речевого сигнала на аллофоны;1) marking the speech signal to allophones;

2) выявление классификационных признаков;2) identification of classification features;

3) принятие решения по вопросу классификации сегментов по определенным группам: EEEEEEEEKELEGIBEEEEEEE.3) making a decision on the classification of segments in certain groups: EEEEEEEEKELEGIBEEEEEEE.

Как видно из фиг. 6, прототип в условиях шумового воздействия высокой энергетики допускает ошибки при классификации сегментов по определенным группам фонем в связи с появлением у всех анализируемых сегментов множественных шумовых классификационных признаков.As can be seen from FIG. 6, the prototype under conditions of noise exposure to high energy makes mistakes in classifying segments by certain phoneme groups due to the appearance of multiple noise classification features in all analyzed segments.

На фигуре 7 представлена работа способа по пункту 5 в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ):The figure 7 shows the operation of the method according to paragraph 5 under the conditions of noise exposure to high energy (signal-to-noise ratio 0 dB):

1) разметка речевого сигнала на аллофоны;1) marking the speech signal to allophones;

2) получение значений Фурье-спектра амплитуд из оценки биспектра речевого сигнала;2) obtaining the values of the Fourier spectrum of the amplitudes from the evaluation of the bispectrum of the speech signal;

3) выявление классификационных признаков, важен момент выявления признака зашумления, который определяется в области частот нормированного Фурье-спектра амплитуд, лежащих выше диапазона речевого сигнала;3) the identification of classification signs, the moment of the detection of a noise sign, which is determined in the frequency range of the normalized Fourier spectrum of amplitudes above the range of the speech signal, is important;

4) коррекция классификационных признаков:4) correction of classification features:

а) ошибки, допущенные прототипом, отмечены как:a) errors made by the prototype are marked as:

1, 5 - ошибка пропуска паузы,1, 5 - error skipping pause,

2, 3, 4 - ошибка в классификации информационных символов в кодовом слове;2, 3, 4 - an error in the classification of information symbols in a code word;

б) вычисление весовых коэффициентов:b) the calculation of weights:

иерархия, основанная на параметрах речевого сигнала и шума:hierarchy based on speech and noise parameters:

1, 5: r=0,95; t=0,95; s=0,97⇒R=0; Т=0; S=0.1, 5: r = 0.95; t = 0.95; s = 0.97⇒R = 0; T = 0; S = 0.

2, 3, 4: r=1,85; t=0,95; s=0,97⇒R=1; T=0; S=0;2, 3, 4: r = 1.85; t = 0.95; s = 0.97⇒R = 1; T is 0; S is 0;

иерархия, основанная на статистических особенностях длительности различных фонем речевого сигнала:hierarchy based on statistical features of the duration of various phonemes of a speech signal:

2, 3, 4: W=0, так как длительность вокализации сегментов 8, 10, 15 ≈30 мс;2, 3, 4: W = 0, since the duration of vocalization of segments is 8, 10, 15 ≈30 ms;

4) принятие решения по вопросу классификации сегментов по определенным группам: NNOKOLEGIONN4) making a decision on the classification of segments in certain groups: NNOKOLEGIONN

Как видно из фигуры 7, способ по п. 5 обеспечивает высокую достоверность классификации в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ).As can be seen from figure 7, the method according to p. 5 provides a high reliability classification in terms of noise exposure to high energy (signal-to-noise ratio 0 dB).

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа классификации сегментов зашумленной речи, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности "новизна".The analysis of the prior art allowed to establish that analogues, characterized by a set of features that are identical to all the features of the claimed method for classifying segments of noisy speech, are absent. Therefore, the claimed invention meets the condition of patentability "novelty."

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".

Заявленное изобретение поясняется следующими фигурами:The claimed invention is illustrated by the following figures:

фиг. 1 - таблица статистических особенностей длительности различных звуков речи;FIG. 1 is a table of statistical characteristics of the duration of various speech sounds;

фиг. 2 - таблица соответствия комбинаторных наборов классификационных признаков и весовых коэффициентов по определенным группам, 12 (двенадцать) из которых группы фонем и 1 (одна) группа, характеризующая паузу;FIG. 2 is a correspondence table of combinatorial sets of classification features and weighting factors for certain groups, 12 (twelve) of which are phoneme groups and 1 (one) group characterizing a pause;

фиг. 3 - функциональная блок-схема устройства классификации сегментов зашумленной речи с использованием полиспектрального анализа;FIG. 3 is a functional block diagram of a device for classifying segments of noisy speech using multispectral analysis;

фиг. 4 - график сравнительного анализа эффективности способов, предложенных в заявленном изобретении, прототипа и аналогов;FIG. 4 is a graph of a comparative analysis of the effectiveness of the methods proposed in the claimed invention, the prototype and analogues;

фиг. 5 - работа прототипа и способа по пункту 5 в условиях отсутствия помех;FIG. 5 - the operation of the prototype and method according to paragraph 5 in the absence of interference;

фиг. 6 - работа прототипа в условиях интенсивного зашумления (отношение сигнал/шум 0 дБ);FIG. 6 - the work of the prototype in conditions of intense noise (signal-to-noise ratio 0 dB);

фиг. 7 - работа способа по пункту 5 в условиях шумового воздействия высокой энергетики (отношение сигнал/шум 0 дБ).FIG. 7 - the operation of the method according to paragraph 5 under the conditions of noise exposure to high energy (signal-to-noise ratio 0 dB).

Исходя из проведенной оценки эффективности предложенного способа согласно решению изобретательской задачи можно с уверенностью сказать, что предложенный способ позволяет осуществлять классификацию сегментов обрабатываемого зашумленного речевого сигнала в увеличенном на 7 дБ в диапазоне отношения сигнал/шум (предложенный в изобретении способ позволяет проводить правильную классификацию сегментов зашумленной речи при более малых отношениях сигнал/шум) со средним повышением достоверности правильной классификации примерно на 5.3%, следовательно задача заявленных изобретений достигнута.Based on the assessment of the effectiveness of the proposed method according to the solution of the inventive problem, it can be said with confidence that the proposed method allows the classification of segments of the processed noisy speech signal to be increased by 7 dB in the signal to noise ratio range (the method proposed in the invention allows the correct classification of noisy speech segments at lower signal-to-noise ratios) with an average increase in the reliability of the correct classification by about 5.3%, the task sequence of the claimed inventions achieved.

Claims (10)

1. Способ классификации сегментов зашумленной речи с использованием полиспектрального анализа, включающий последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала; выполняют аналого-цифровое преобразование с предустановленной частотой дискретизации и разделение на сегменты квазистационарности, вычисляют Фурье-спектры сегментов зашумленного речевого сигнала и нормализуют их; выделяют в нормализованном спектре амплитуд паузы, шумы и звуковые сигналы, далее производят классификацию сегментов по типовым группам, для чего определяют на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте наличие/отсутствие классификационных признаков, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти и сравнивают определенные комбинаторные наборы классификационных признаков сегмента с предустановленными параметрами групп фонем, одновременно формируют последовательности символов, обозначающих группы фонем, отличающийся тем, что используют аппарат полиспектрального анализа, а именно при оценке Фурье-спектра амплитуд речевого сигнала, получаемого через биспектр речевого сигнала, который синтезируют путем преобразования Фурье от тройной автокорреляционной функции на участке квазистационарности обрабатываемого зашумленного речевого сигнала, кроме того, на этапе принятия решения классификации обрабатываемого сегмента зашумленного речевого сигнала с отнесением к конкретной группе осуществляют коррекцию классификационных признаков групп с применением процедуры иерархии, для чего вводят весовые коэффициенты, основанные на внутрисимвольных и межсимвольных связях, как в кодовом слове, так и внутри каждого символа и получают их путем оценки статистических и параметрических особенностей как речевого сигнала, так и шума.1. A method for classifying segments of noisy speech using multispectral analysis, including sequentially executed steps, according to which receive a noisy speech signal; perform analog-to-digital conversion with a predefined sampling rate and separation into quasistationary segments, calculate the Fourier spectra of the segments of the noisy speech signal and normalize them; pauses, noise and sound signals are distinguished in the normalized spectrum of amplitudes, then the segments are classified according to typical groups, for which the presence / absence of classification features, combinatorial sets of which characterize groups of phonemes whose parameters are preset, is determined on the basis of the initial speech signal and the normalized spectrum in the memory block and compare certain combinatorial sets of classification features of the segment with the predefined parameters of phoneme groups, simultaneously but they form sequences of characters denoting phoneme groups, characterized in that they use a multispectral analysis apparatus, namely, when evaluating the Fourier spectrum of the amplitudes of the speech signal obtained through the bispectrum of the speech signal, which is synthesized by the Fourier transform of the triple autocorrelation function in the quasistation section of the processed noisy speech signal, in addition, at the stage of deciding the classification of the processed segment of a noisy speech signal with reference to This group corrects the classification features of the groups using the hierarchy procedure, for which weights are introduced based on the intrasymbol and intersymbol relationships, both in the code word and inside each symbol, and obtained by evaluating the statistical and parametric features of both the speech signal and noise. 2. Способ по п. 1, отличающийся тем, что на этапе получения Фурье-спектров зашумленного речевого сигнала Фурье-спектры приближают к спектрам исходного речевого сигнала за счет частичного подавления гауссовой компоненты шумового воздействия на основе сечения речевого сигнала, представленного эргодическим квазистационарным случайным процессом, по кумулянту третьего порядка и далее восстанавливают Фурье-спектры непосредственно из биспектра обрабатываемого сегмента речевого сигнала.2. The method according to p. 1, characterized in that at the stage of obtaining the Fourier spectra of a noisy speech signal, the Fourier spectra are brought closer to the spectra of the original speech signal by partially suppressing the Gaussian component of the noise effect based on the section of the speech signal represented by an ergodic quasistationary random process, by the cumulant of the third order and then restore the Fourier spectra directly from the bispectrum of the processed segment of the speech signal. 3. Способ по п. 1, отличающийся тем, что при непосредственном процессе принятия решения классификации сегментов зашумленной речи к определенному классу групп фонем в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на статистических особенностях длительности различных фонем русской речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем, основанные на рекурсивных связях внутри кодового слова, состоящего из символов, обозначающих группу фонем.3. The method according to p. 1, characterized in that in the direct decision-making process for classifying segments of noisy speech to a certain class of phoneme groups under the conditions of noise of the processed speech signal of Russian speech, a hierarchy procedure is introduced based on statistical features of the duration of various phonemes of Russian speech, for which we introduce the weighting coefficients of the classification features of twelve phoneme groups based on recursive relationships inside a codeword consisting of symbols denoting a background group . 4. Способ по п. 1, отличающийся тем, что при непосредственном процессе принятия решения кластеризации сегментов зашумленной речи к определенному классу из двенадцати групп фонем и одной группы, характеризующей паузу, в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на параметрических особенностях свойств шумов и речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем и одной группы, характеризующей паузу, основанные на рекурсивных связях внутри каждого символа, обозначающего группу фонем, кодового слова.4. The method according to p. 1, characterized in that in the direct decision-making process of clustering segments of noisy speech to a certain class of twelve phoneme groups and one group characterizing a pause, a hierarchy procedure based on parametric is introduced under the conditions of noisy processed speech signal of Russian speech features of the properties of noise and speech, for which we introduce the weight coefficients of the classification features of twelve phoneme groups and one group that characterizes the pause based on recursive connections three each symbol represents a group of phonemes, the code word. 5. Способ по п. 1, отличающийся тем, что на этапе получения Фурье-спектров зашумленного речевого сигнала Фурье-спектры приближают к спектрам исходного речевого сигнала за счет частичного подавления гауссовой компоненты шумового воздействия на основе сечения речевого сигнала, представленного эргодическим квазистационарным случайным процессом, по кумулянту третьего порядка и далее восстанавливают Фурье-спектры непосредственно из биспектра обрабатываемого сегмента речевого сигнала, затем на этапе принятия решения классификации сегментов зашумленной речи к определенному классу групп фонем в условиях зашумления обрабатываемого речевого сигнала русской речи вводят процедуру иерархии, основанную на статистических особенностях длительности различных фонем русской речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем, основанные на рекурсивных связях внутри кодового слова, состоящего из символов, обозначающих группу фонем, при этом учитывают процедуру иерархии, основанную на параметрических особенностях свойств шумов и речи, для чего вводят весовые коэффициенты классификационных признаков двенадцати групп фонем и одной группы, характеризующей паузу, основанные на рекурсивных связях внутри каждого символа, обозначающего группу фонем, кодового слова.5. The method according to p. 1, characterized in that at the stage of obtaining the Fourier spectra of a noisy speech signal, the Fourier spectra are brought closer to the spectra of the original speech signal by partially suppressing the Gaussian component of the noise effect based on the section of the speech signal represented by an ergodic quasistationary random process, by the cumulant of the third order and then restore the Fourier spectra directly from the bispectrum of the processed segment of the speech signal, then at the stage of deciding the classification of segments Noisy speech to a certain class of phoneme groups under noisy conditions of the processed speech signal of Russian speech introduces a hierarchy procedure based on statistical features of the duration of various phonemes of Russian speech, for which we introduce the weighting coefficients of the classification features of twelve phoneme groups based on recursive relationships inside a codeword consisting of of the symbols denoting a group of phonemes, while taking into account the hierarchy procedure based on the parametric features of the properties of noise and speech, To introduce weighting coefficients which classification features twelve groups and one group of phonemes characterizing the pause, based on recursive relationships within each symbol indicating a group of phonemes codeword. 6. Устройство классификации сегментов речи, включающее блок приема зашумленного речевого сигнала, последовательно соединенный с аналого-цифровым преобразователем, соединенным с блоком управления, блоком памяти и блоком определения классификационных признаков групп фонем для формирования последовательности символов, обозначающих группы фонем, выполненный с возможностью формирования по текущим комбинаторным сочетаниям классификационных признаков, присутствующих в зашумленном речевом сигнале соответствующей им последовательности символов, обозначающих группы фонем; записи кодового слова, размеченного по символам групп фонем и вызываемого из блока памяти, блоки коррекции сегментных классификационных признаков и блок принятия решения соединены с блоком управления, выполненным с возможностью управления режимами функционирования данных блоков, обмена информацией между ними и взаимодействия с блоком памяти, отличающееся тем, что введены блок сегментации речевого сигнала, учитывающий взаимное окно пересечения соседних сегментов по количеству отсчетов, соединенный с совокупностью блоков полиспектрального анализа, включающей блок корреляции третьего порядка, выход которого соединен с входом блока преобразования Фурье, выход которого соединен с входом блока восстановления Фурье-спектра амплитуд из оценки биспектра, выход которого соединен с входом блока определения сегментных классификационных признаков; также дополнительно введены блоки коррекции классификационных признаков, блоки параметрической и статистической иерархии и блок хранения кратковременных данных; кроме того, в блоке определения классификационных признаков групп фонем реализована процедура выявления шумового признака добавлением дополнительного полосового фильтра; введенные блоки соединены между собой множественными рекурсивными связями, учитывающими внутрисимвольную и межсимвольную связь в формируемой последовательности с выхода блока формирования последовательности символов.6. A device for classifying speech segments, including a unit for receiving a noisy speech signal, connected in series with an analog-to-digital converter connected to a control unit, a memory unit and a unit for determining classification features of phoneme groups to form a sequence of characters representing phoneme groups, configured to generate current combinatorial combinations of classification features present in a noisy speech signal of the corresponding sequence characters denoting phoneme groups; recording a codeword marked up by the symbols of phoneme groups and called up from the memory block, correction blocks for segment classification attributes and a decision block are connected to a control unit configured to control the operating modes of these blocks, exchange information between them and interact with the memory block, characterized in that a block of segmentation of a speech signal is introduced, taking into account the mutual window of intersection of neighboring segments by the number of samples connected to the set of blocks of the multispectrum complete analysis, including a third-order correlation block, the output of which is connected to the input of the Fourier transform block, the output of which is connected to the input of the Fourier reconstruction of the amplitude spectrum from the bispectrum estimate, the output of which is connected to the input of the segment classification attribute determination block; blocks of correction of classification features, blocks of parametric and statistical hierarchies, and a block for storing short-term data have also been introduced; in addition, in the block for determining classification features of phoneme groups, a procedure for detecting a noise sign by adding an additional band-pass filter is implemented; the entered blocks are interconnected by multiple recursive connections, taking into account the intrasymbol and intersymbol communication in the generated sequence from the output of the block forming the sequence of characters. 7. Устройство по п. 6, отличающееся тем, что в блоке памяти предустановлены данные о комбинаторных наборах классификационных признаков и весовых коэффициентов двенадцати групп фонем и одной группы, характеризующей паузу в обрабатываемом речевом сигнале.7. The device according to claim 6, characterized in that data on combinatorial sets of classification features and weights of twelve groups of phonemes and one group characterizing a pause in the processed speech signal are pre-installed in the memory unit. 8. Устройство по п. 6, отличающееся тем, что блок определения классификационных признаков соединен с блоком коррекции классификационных признаков, связанным с блоками определения иерархии, путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.8. The device according to claim 6, characterized in that the classification feature determination unit is connected to the classification feature correction unit associated with the hierarchy determination units by introducing mutual recursive relationships when processing segments of a noisy speech signal in series and parallel. 9. Устройство по п. 6, отличающееся тем, что блок хранения кратковременных данных связан с блоками параметрической и статистической иерархии и блоком принятия решения путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.9. The device according to claim 6, characterized in that the short-term data storage unit is connected with the blocks of the parametric and statistical hierarchy and the decision block by introducing mutual recursive relationships during serial-parallel processing of segments of a noisy speech signal. 10. Устройство по п. 6, отличающееся тем, что в блоке памяти предустановлены данные о комбинаторных наборах классификационных признаков и весовых коэффициентов двенадцати групп фонем и одной группы, характеризующей паузу в обрабатываемом речевом сигнале, кроме того, блок определения классификационных признаков соединен с блоком коррекции классификационных признаков, связанным с блоками определения иерархии, путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала, при этом блок хранения кратковременных данных связан с блоками параметрической и статистической иерархии и блоком принятия решения путем введения взаимных рекурсивных связей при последовательно-параллельной обработке сегментов зашумленного речевого сигнала.10. The device according to claim 6, characterized in that data on combinatorial sets of classification features and weights of twelve groups of phonemes and one group characterizing a pause in the processed speech signal are predefined in the memory unit, in addition, the classification features determination unit is connected to the correction unit classification features associated with hierarchy determination units by introducing reciprocal recursive relationships when sequentially processing segments of a noisy speech signal, in this case, the short-term data storage unit is connected with the parametric and statistical hierarchy blocks and the decision block by introducing mutual recursive relationships during serial-parallel processing of segments of a noisy speech signal.
RU2014154081A 2014-12-29 2014-12-29 Method and device for classifying noisy voice segments using multispectral analysis RU2606566C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2014154081A RU2606566C2 (en) 2014-12-29 2014-12-29 Method and device for classifying noisy voice segments using multispectral analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014154081A RU2606566C2 (en) 2014-12-29 2014-12-29 Method and device for classifying noisy voice segments using multispectral analysis

Publications (2)

Publication Number Publication Date
RU2014154081A RU2014154081A (en) 2016-07-20
RU2606566C2 true RU2606566C2 (en) 2017-01-10

Family

ID=56413313

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014154081A RU2606566C2 (en) 2014-12-29 2014-12-29 Method and device for classifying noisy voice segments using multispectral analysis

Country Status (1)

Country Link
RU (1) RU2606566C2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2662939C1 (en) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Method for identification of musical works

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624011A (en) * 1982-01-29 1986-11-18 Tokyo Shibaura Denki Kabushiki Kaisha Speech recognition system
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
RU2294024C2 (en) * 2005-04-18 2007-02-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method of speaker-independent recognition of key words in speech
RU2403628C2 (en) * 2008-10-20 2010-11-10 Федеральное государственное образовательное учреждение высшего профессионального образования "Чувашский государственный университет имени И.Н. Ульянова" Method of recognising key words in continuous speech
US20110054892A1 (en) * 2008-05-28 2011-03-03 Koreapowervoice Co., Ltd. System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
RU2466468C1 (en) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров System and method of speech recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624011A (en) * 1982-01-29 1986-11-18 Tokyo Shibaura Denki Kabushiki Kaisha Speech recognition system
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
RU2294024C2 (en) * 2005-04-18 2007-02-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method of speaker-independent recognition of key words in speech
US20110054892A1 (en) * 2008-05-28 2011-03-03 Koreapowervoice Co., Ltd. System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
RU2403628C2 (en) * 2008-10-20 2010-11-10 Федеральное государственное образовательное учреждение высшего профессионального образования "Чувашский государственный университет имени И.Н. Ульянова" Method of recognising key words in continuous speech
RU2466468C1 (en) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров System and method of speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2662939C1 (en) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Method for identification of musical works

Also Published As

Publication number Publication date
RU2014154081A (en) 2016-07-20

Similar Documents

Publication Publication Date Title
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Delcroix et al. Compact network for speakerbeam target speaker extraction
RU2419890C1 (en) Method of identifying speaker from arbitrary speech phonograms based on formant equalisation
Kulmer et al. Phase estimation in single channel speech enhancement using phase decomposition
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
US20080208578A1 (en) Robust Speaker-Dependent Speech Recognition System
US8983832B2 (en) Systems and methods for identifying speech sound features
CN106558308B (en) Internet audio data quality automatic scoring system and method
Mowlaee et al. New results on single-channel speech separation using sinusoidal modeling
Papadopoulos et al. Long-term SNR estimation of speech signals in known and unknown channel conditions
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
Kim et al. Mask classification for missing-feature reconstruction for robust speech recognition in unknown background noise
Milner et al. Clean speech reconstruction from MFCC vectors and fundamental frequency using an integrated front-end
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
RU2606566C2 (en) Method and device for classifying noisy voice segments using multispectral analysis
JP2002366192A (en) Method and device for recognizing voice
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
JP2014232245A (en) Sound clarifying device, method, and program
CN116312561A (en) Method, system and device for voice print recognition, authentication, noise reduction and voice enhancement of personnel in power dispatching system
Nadeu Camprubí et al. Pitch determination using the cepstrum of the one-sided autocorrelation sequence
Andrews et al. Robust pitch determination via SVD based cepstral methods
Rehr et al. Cepstral noise subtraction for robust automatic speech recognition
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
Enzinger et al. A logarithmic based pole-zero vocal tract model estimation for speaker verification
EP3956890B1 (en) A dialog detector

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
MM4A The patent is invalid due to non-payment of fees

Effective date: 20170311