RU2268504C9 - Method for recognition of speech patterns and device for realization of method - Google Patents

Method for recognition of speech patterns and device for realization of method Download PDF

Info

Publication number
RU2268504C9
RU2268504C9 RU2004109253/09A RU2004109253A RU2268504C9 RU 2268504 C9 RU2268504 C9 RU 2268504C9 RU 2004109253/09 A RU2004109253/09 A RU 2004109253/09A RU 2004109253 A RU2004109253 A RU 2004109253A RU 2268504 C9 RU2268504 C9 RU 2268504C9
Authority
RU
Russia
Prior art keywords
phoneme
speech
recognition
phonemes
values
Prior art date
Application number
RU2004109253/09A
Other languages
Russian (ru)
Other versions
RU2004109253A (en
RU2268504C1 (en
Inventor
Людмила Антоновна Гиголо (RU)
Людмила Антоновна Гиголо
Виталий Олегович Сахаров (RU)
Виталий Олегович Сахаров
Original Assignee
Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" filed Critical Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения"
Priority to RU2004109253/09A priority Critical patent/RU2268504C9/en
Publication of RU2004109253A publication Critical patent/RU2004109253A/en
Application granted granted Critical
Publication of RU2268504C1 publication Critical patent/RU2268504C1/en
Publication of RU2268504C9 publication Critical patent/RU2268504C9/en

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: analysis and recognition of speech signals, can be used for recognition of speech patterns.
SUBSTANCE: device for realization of aforementioned speech phoneme recognition method has: computing system, including clock generator, controller, random-access memory device, central microprocessor unit, meant for forming bispectral signs and recognizing them on basis of speech phonemes, digital-analog converter, long-term memorizing device, video-controller and analog-digital converter, and also keyboard, display, headphones and a microphone.
EFFECT: increased precision of speech patterns recognition due to forming of phoneme signs for speech phonemes recognition based on application of bispectral analysis, based on transformation of digital code series, appropriate for speech signals, to bispectral zone, characterizing interaction between values of Fourier components at different frequencies within speech spectrum, and thus, to provide selection of an additional, significantly new information from speech signals, to increase precision of phoneme recognition.
2 cl, 5 dwg

Description

Изобретение относится к области анализа и распознавания речевых сигналов и касается способа распознавания фонем речи на основе использования сформированных биспектральных признаков фонем и устройства для реализации способа.The invention relates to the field of analysis and recognition of speech signals and relates to a method for recognizing phonemes of speech based on the use of generated bispectral features of phonemes and devices for implementing the method.

Известен способ распознавания слов речи [1], в котором слова хранятся в словаре в виде фонетической модели, составленной из последовательности фонетических символов, соответствующих фонемам слова. Для каждой фонемы из слова определяются характерные параметры (признаки). Для получения признаков фонем используют представление речевого сигнала в спектральной области, т.е. речевой сигнал подвергается спектральному анализу, который осуществляется с помощью алгоритмов быстрого преобразования Фурье (БПФ).A known method for recognizing speech words [1], in which words are stored in the dictionary in the form of a phonetic model, composed of a sequence of phonetic symbols corresponding to the phonemes of the word. For each phoneme from the word, characteristic parameters (attributes) are determined. To obtain phoneme features, a speech signal representation in the spectral region is used, i.e. the speech signal is subjected to spectral analysis, which is carried out using fast Fourier transform (FFT) algorithms.

Формирование признаков фонем в данном способе основано на выделении контура особенностей спектра путем оценки спектральной плотности мощности в различных частотных полосах, нахождении максимумов энергии спектра (измерении формантных частот).The formation of phoneme signs in this method is based on the allocation of the spectrum features by evaluating the spectral power density in different frequency bands, finding the maximum energy of the spectrum (measuring the formant frequencies).

Недостатком данного способа является то, что спектральные признаки не всегда являются устойчивыми и не обеспечивают высокой точности распознавания фонем.The disadvantage of this method is that the spectral features are not always stable and do not provide high accuracy of recognition of phonemes.

Известен также способ выделения такого признака фонем вокализованных звуков, как частота основного тона [2]. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, оценке средней частоты основного тона исследуемого речевого сигнала, соответствующего фонеме вокализованного звука, путем аппроксимации оценок частоты основного тона, полученных с помощью трех видов параллельных выделителей.There is also a method of distinguishing such a sign of phonemes of voiced sounds, as the frequency of the fundamental tone [2]. The method is based on the decomposition of the speech signal into a sequence of Fourier spectra, finding the absolute maximum, estimating the average frequency of the fundamental tone of the studied speech signal, corresponding to the phoneme of voiced sound, by approximating the estimates of the fundamental frequency obtained using three types of parallel separators.

Недостатком данного способа является не очень высокая точность в определении частоты основного тона, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в ее состав.The disadvantage of this method is the not very high accuracy in determining the frequency of the fundamental tone, which is associated with a strong dependence of the circuit as a whole on the accuracy of each algorithm included in its composition.

Наиболее близким к предлагаемому способу является способ распознавания фонем речи, принятый за прототип, реализованный в системе распознавания речи в реальном времени на базе средств вычислительной техники [3], базирующийся на представлении слов в виде последовательностей характерных сегментов, в целом соответствующих фонемам речи. Каждый сегмент описывается ограниченным набором признаков, а каждое слово описывается последовательностью таких сегментов.Closest to the proposed method is a speech phoneme recognition method adopted as a prototype implemented in real-time speech recognition system based on computer technology [3], based on the representation of words in the form of sequences of characteristic segments, generally corresponding to speech phonemes. Each segment is described by a limited set of attributes, and each word is described by a sequence of such segments.

Для выделения признаков речевой сигнал, соответствующий сегменту (фонеме) речи, преобразуется в аналого-цифровом преобразователе (АЦП) в цифровые последовательности кодов, подвергаемые в анализаторе спектра спектральному анализу с помощью использования алгоритма быстрого преобразования Фурье (БПФ).To distinguish features, the speech signal corresponding to the speech segment (phoneme) is converted in an analog-to-digital converter (ADC) into digital code sequences subjected to spectral analysis in the spectrum analyzer using the Fast Fourier Transform (FFT) algorithm.

Путем анализа полученных последовательных спектров в блоке обработки данных и управления производится формирование таких признаков фонем, как положения формантных частот (с помощью нахождения максимумов спектра), динамика изменения энергии спектра в специально подобранных частотных полосах. Процедура распознавания фонем в данном способе основана на сравнении сформированных признаков сегмента речи с признаками эталонов фонем, либо классов фонем, хранящихся в памяти блока обработки данных и управления, в результате чего последовательно осуществляется отнесение распознаваемой фонемы к классу фонем, а затем идентифицируется конкретная фонема.By analyzing the obtained successive spectra in the data processing and control unit, the formation of such phoneme attributes as the positions of the formant frequencies (by finding the maximums of the spectrum), the dynamics of the spectrum energy in specially selected frequency bands are formed. The phoneme recognition procedure in this method is based on comparing the generated features of the speech segment with the signs of phoneme patterns or phoneme classes stored in the memory of the data processing and control unit, as a result of which the recognized phoneme is sequentially assigned to the phoneme class, and then a specific phoneme is identified.

Таким образом, признаки фонем в данном способе формируются, учитывая свойства спектров соответствующих участков речи.Thus, the signs of phonemes in this method are formed, taking into account the properties of the spectra of the corresponding sections of speech.

Недостатком данного способа является невысокая точность распознавания фонем вследствие использования неустойчивых информативных признаков фонем, базирующихся на использовании спектрального представления.The disadvantage of this method is the low accuracy of recognition of phonemes due to the use of unstable informative features of phonemes based on the use of spectral representation.

Задачей изобретения в части способа является повышение точности распознавания фонем речи.The objective of the invention in terms of the method is to increase the accuracy of recognition of phonemes of speech.

Принципиально новым подходом к решению задачи повышения точности распознавания фонем является применение для формирования признаков и распознавания фонем биспектрального анализа, базирующегося на особого вида преобразовании цифровых последовательностей кодов, соответствующих речевым сигналам, в биспектральную область, характеризующую взаимодействия между значениями компонентов Фурье на разных частотах в диапазоне речи, таким образом обеспечивается выделение дополнительной, существенно новой информации из распознаваемых речевых сигналов.A fundamentally new approach to solving the problem of increasing the accuracy of phoneme recognition is the use of bispectral analysis, based on a special type of transformation of digital sequences of codes corresponding to speech signals, into a bispectral region characterizing the interactions between the values of the Fourier components at different frequencies in the speech range Thus, the allocation of additional, essentially new information from recognized speech x signals.

Задача изобретения достигается тем, что в способе распознавания фонем речи осуществляется прием звуковых колебаний, соответствующих речевым командам, и их преобразование в электрические сигналы, аналого-цифровое преобразование электрических сигналов в цифровые последовательности кодов, которые преобразуют к виду графических функций во времени, при анализе которых на дисплее оператор устанавливает границы фонем в составе речевых команд, одновременно прослушивая в наушниках звуковые сигналы, соответствующие выделенным участкам речевых команд.The objective of the invention is achieved by the fact that in the method of recognition of phonemes of speech, sound vibrations corresponding to speech commands are received and converted into electrical signals, analog-to-digital conversion of electrical signals into digital sequences of codes that convert to the form of graphic functions in time, upon analysis of which on the display, the operator sets the boundaries of phonemes as part of speech commands, while simultaneously listening to the sound signals in the headphones corresponding to the selected sections of the speech out teams.

В вычислительной системе по интервалам внутри выделенных границ фонем осуществляется обработка соответствующих цифровых последовательностей кодов, заключающаяся в формировании биспектральных признаков фонем. Формирование биспектральных признаков основано на преобразовании цифровых последовательностей кодов в область биспектра, который, благодаря своим свойствам, обеспечивает более полное выделение информации из сигнала, что дает повышение точности при распознавании фонем.In the computing system, at intervals within the selected boundaries of the phonemes, the processing of the corresponding digital code sequences is carried out, which consists in the formation of bispectral features of phonemes. The formation of bispectral features is based on the conversion of digital code sequences into the bispectrum region, which, due to its properties, provides a more complete selection of information from the signal, which increases the accuracy of phoneme recognition.

Накапливая сформированные биспектральные признаки для одинаковых по буквенному коду фонем из разных речевых команд, формируются эталоны фонем (совокупные матрицы биспектральных признаков). При распознавании фонем оператор на основе аудиовизуального анализа выделяет границы фонемы, подвергаемой распознаванию (ее буквенный код хранится в памяти вычислительной системы). Для цифровых последовательностей кодов, соответствующих выделенному интервалу, осуществляется формирование биспектральных признаков и их сравнение с эталонами всех фонем для получения решения о распознанной фонеме.Accumulating the formed bispectral attributes for phonemes identical in the alphabetic code from different speech commands, the phoneme standards (aggregate matrices of bispectral attributes) are formed. When recognizing phonemes, the operator, on the basis of audiovisual analysis, identifies the boundaries of the phoneme being recognized (its letter code is stored in the memory of the computer system). For digital sequences of codes corresponding to the selected interval, bispectral features are formed and compared with the standards of all phonemes to obtain a decision on the recognized phoneme.

Точность распознавания фонем определяется путем сравнения буквенного кода распознанной фонемы с буквенным кодом распознаваемой фонемы, извлекаемым из памяти вычислительной системы.The recognition accuracy of phonemes is determined by comparing the letter code of the recognized phoneme with the letter code of the recognized phoneme, extracted from the memory of the computer system.

Изобретение поясняется чертежами.The invention is illustrated by drawings.

На фиг.1 показаны области симметрии и область существования модуля биспектра в частотной плоскости f1, f2, где f1, f2 - оси частот, соответствующих исследуемому диапазону речевого сигнала (0-8 кГц).Figure 1 shows the region of symmetry and the region of existence of the bispectrum module in the frequency plane f 1 , f 2 , where f 1 , f 2 are the frequency axes corresponding to the studied range of the speech signal (0-8 kHz).

Модулю биспектра присущи свойства симметрии, которые отражаются на фиг.1 в виде областей симметрии. Для полного описания модуля биспектра достаточно использовать только одну область симмметрии, называемую областью существования модуля биспектра, ограниченную заштрихованным треугольником ОЕХ на фиг.1.The bispectrum module has inherent symmetry properties, which are reflected in figure 1 in the form of symmetry regions. For a complete description of the bispectrum module, it is sufficient to use only one region of symmetry, called the region of existence of the bispectrum module, limited by the shaded triangle OEX in Fig. 1.

На фиг.2 - 4 показаны примеры графических изображений массивов значений модулей биспектра фонем А, С, Б, эквивалентных области, ограниченной треугольником OXY, включающем две симметричные области ОЕХ и OEY, показанные на фиг.1.Figure 2-4 shows examples of graphical images of arrays of values of the bispectrum modules of phonemes A, C, B, equivalent to the region bounded by the triangle OXY, including two symmetric regions OEX and OEY, shown in figure 1.

Массивы значений модуля биспектра в указанных примерах вычислены по заявляемому способу, где f1, f2 - оси частот (шаг дискретизации 125 Гц).The arrays of values of the bispectrum module in these examples are calculated by the claimed method, where f 1 , f 2 - frequency axis (sampling step 125 Hz).

На фиг.5 представлена функциональная схема устройства для реализации способа.Figure 5 presents a functional diagram of a device for implementing the method.

Схема включает следующие элементы:The scheme includes the following elements:

1. Микрофон - осуществляет прием звуковых колебаний, соответствующих речевым командам, и преобразование их в электрические сигналы;1. Microphone - receives sound vibrations corresponding to speech commands, and converts them into electrical signals;

2. Аналого-цифровой преобразователь (АЦП) - преобразует электрические сигналы в цифровые последовательности кодов;2. Analog-to-digital converter (ADC) - converts electrical signals into digital code sequences;

3. Контроллер - осуществляет управление информацией в вычислительной системе;3. Controller - provides information management in a computer system;

4. Оперативное запоминающее устройство (ОЗУ) - накапливает и сохраняет цифровую информацию о фонемах, используемую в оперативном режиме;4. Random access memory (RAM) - accumulates and stores digital information about phonemes used in online mode;

5. Процессор - производит по программе необходимые преобразования и вычисления;5. Processor - makes the necessary transformations and calculations according to the program;

6. Тактовый генератор - производит синхронизацию работы АЦП, процессора, контроллера, ОЗУ, цифроаналогового преобразователя (ЦАП), долговременного запоминающего устройства (ДЗУ);6. Clock generator - synchronizes the operation of the ADC, processor, controller, RAM, digital-to-analog converter (DAC), long-term storage device (DZU);

7. Долговременное запоминающее устройство (ДЗУ) - накапливает цифровую информацию о фонемах, необходимую для долгосрочного хранения;7. Long-term storage device (DZU) - accumulates digital information about phonemes necessary for long-term storage;

8. Клавиатура - предназначена для ввода оператором информации по анализируемым и распознаваемым фонемам из речевых команд;8. Keyboard - designed for the operator to enter information on the analyzed and recognizable phonemes from speech commands;

9. Дисплей - производит отображение информации о фонемах для оператора;9. Display - displays phoneme information for the operator;

10. Цифроаналоговый преобразователь (ЦАП) - осуществляет преобразование цифровых последовательностей кодов, соответствующих фонемам речи, в электрические сигналы;10. Digital-to-analog converter (DAC) - converts digital sequences of codes corresponding to speech phonemes into electrical signals;

11. Наушники - преобразуют электрические сигналы в звуковые сигналы;11. Headphones - convert electrical signals into audio signals;

12. Видеоконтроллер - преобразует информацию в видеосигнал для отображения на дисплее;12. Video controller - converts information into a video signal for display;

13. Вычислительная система - включает в свой состав блоки, осуществляющие: преобразование электрических сигналов, соответствующих звуковым колебаниям, в цифровые последовательности кодов, вычисление параметров, необходимых для формирования признаков и распознавания фонем, передачу информации в другие блоки устройства.13. Computing system - includes blocks that implement: converting electrical signals corresponding to sound vibrations into digital sequences of codes, calculating the parameters necessary for the formation of signs and recognition of phonemes, transmitting information to other blocks of the device.

Заявляемый способ осуществляется следующим образом:The inventive method is as follows:

прием звуковых колебаний, соответствующих произносимым оператором речевым командам, и их преобразование в электрические сигналы осуществляется микрофоном 1, затем сигнал поступает в аналого-цифровой преобразователь (АЦП) 2, где осуществляется преобразование электрических сигналов в цифровые последовательности кодов, которые при управлении контроллера 3 вычислительной системы 13 передаются в оперативное запоминающее устройство (ОЗУ) 4 для хранения и использования при последующей обработке в процессоре 5,reception of sound vibrations corresponding to the speech commands delivered by the operator, and their conversion into electrical signals is carried out by microphone 1, then the signal is fed to an analog-to-digital converter (ADC) 2, where electrical signals are converted into digital sequences of codes that are controlled by controller 3 of the computing system 13 are transferred to random access memory (RAM) 4 for storage and use during subsequent processing in the processor 5,

синхронизация работы АЦП 2, контроллера 3, ОЗУ 4, долговременного запоминающего устройства (ДЗУ) 7, цифроаналогового преобразователя (ЦАП) 10 и процессора 5 осуществляется тактовым генератором 6,the synchronization of the ADC 2, controller 3, RAM 4, long-term storage device (DZU) 7, digital-to-analog converter (DAC) 10 and processor 5 is carried out by a clock generator 6,

для обучения системы распознаванию фонем создаются эталоны фонем, с этой целью цифровые последовательности кодов, соответствующие произнесенным оператором командам, передаются из ОЗУ 4 в процессор 5, где с помощью программы осуществляется их преобразование к виду графической функции во времени, передаваемой через видеоконтроллер 12 на дисплей 9,To train the phoneme recognition system, phoneme standards are created, for this purpose digital code sequences corresponding to the commands spoken by the operator are transferred from RAM 4 to processor 5, where they are converted using the program to the form of a graphic function in time transmitted through video controller 12 to display 9 ,

оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды,the operator, analyzing the video information presented on the display screen 9 corresponding to the spoken command, performs manual marking, which consists in setting the boundaries of the phoneme as part of the team,

одновременно оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, получаемый путем обработки цифровых последовательностей кодов в процессоре 5, передачи их в ЦАП 10, где осуществляется их преобразование в электрический сигнал, преобразуемый в наушниках 11 в звуковой сигнал,at the same time, the operator listens with the aid of the headphones 11 an audio signal corresponding to a dedicated phoneme obtained by processing the digital sequences of codes in the processor 5, transferring them to the DAC 10, where they are converted into an electrical signal that is converted into the audio signal in the headphones 11,

оператор вводит с помощью клавиатуры 8 состав команды и букву, соответствующую выделенной фонеме,the operator enters using the keyboard 8 the composition of the team and the letter corresponding to the selected phoneme,

в ОЗУ 4 накапливаются номера дискретных отсчетов начала и конца выделенных фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем,in RAM 4, the numbers of discrete samples of the beginning and end of the selected phonemes and the corresponding letter codes are accumulated, as well as the commands containing the borders of the phonemes,

накопленная информация передается для хранения в ДЗУ 7,the accumulated information is transmitted for storage in DZU 7,

для формирования эталонов фонем процессором 5 по программе на основании буквенного кода фонемы производится выбор из ДЗУ 7 соответствующих цифровых последовательностей кодов,for the formation of phoneme standards by the processor 5 according to the program, based on the phoneme's letter code, the corresponding digital code sequences are selected from the DZU 7,

далее в процессоре 5 с помощью алгоритма БПФ вычисляется массив значений модуля спектра |F(jf)|,further, in processor 5, using the FFT algorithm, an array of values of the spectrum modulus | F (jf) |,

где f - частота, соотвествующая речевому диапазону 0-8 кГц,where f is the frequency corresponding to the speech range of 0-8 kHz,

массив значений модуля биспектра вычисляется как произведение трех преобразований Фурье (модулей спектра) [4, 5] в следующем виде:the array of values of the bispectrum module is calculated as the product of three Fourier transforms (spectrum modules) [4, 5] in the following form:

|S(f1, f2)|=|F[-j(f1+f2)]|·|F(jf1)|·|F(jf2)|| S (f 1 , f 2 ) | = | F [-j (f 1 + f 2 )] | · | F (jf 1 ) | · | F (jf 2 ) |

где f1, f2 - частоты, соответствующие исследуемому диапазону речевого сигнала (0-8 кГц с шагом дискретизации 125 Гц),where f 1 , f 2 are the frequencies corresponding to the studied range of the speech signal (0-8 kHz with a sampling step of 125 Hz),

причем в качестве значений модулей спектра |F[-j (f1+f2)]|, |F(jf1)|, |F(jf2)| используются значения из ранее вычисленного массива значений модуля спектра.moreover, as the values of the spectrum moduli | F [-j (f 1 + f 2 )] |, | F (jf 1 ) |, | F (jf 2 ) | values from a previously computed array of spectrum modulus values are used.

На фиг.2, фиг.3, фиг.4 показаны примеры графических изображений массивов значений модуля биспектра фонем А, С, Б, вычисленных по заявляемому способу; представленные примеры показывают различные распределения максимумов в массиве значений модуля биспектра для разных фонем. Анализ одинаковых по буквенному коду фонем показывает близость областей наличия максимумов модуля биспектра. При этом каждая из фонем характеризуется индивидуальным расположением областей наличия значений максимумов модуля биспектра высокой интенсивности, в частности, как видно из фиг.2, фиг.3, фиг.4, для фонем А, Б характерно наличие значений максимумов модуля биспектра высокой интенсивности в области низких частот (до 2-х кГц), а для фонемы С - в области высоких частот (выше 4-х кГц). Эти свойства использовались в заявляемом способе при распознавании фонем.Figure 2, figure 3, figure 4 shows examples of graphic images of arrays of values of the module of the bispectrum of phonemes A, C, B, calculated by the present method; the presented examples show different maximum distributions in the array of values of the bispectrum modulus for different phonemes. An analysis of phonemes identical in letter code shows the proximity of the areas of the presence of maxima of the bispectrum modulus. In this case, each of the phonemes is characterized by an individual arrangement of the regions where the maximum values of the high-intensity bispectrum modulus are present, in particular, as can be seen from FIG. 2, FIG. 3, and FIG. low frequencies (up to 2 kHz), and for the phoneme C in the high frequency region (above 4 kHz). These properties were used in the claimed method for recognition of phonemes.

В полученном массиве значений модуля биспектра выделяются максимумы и определяются их положения в частотной плоскости f1, f2,In the resulting array of values of the bispectrum modulus, maxima are selected and their positions in the frequency plane f 1 , f 2 are determined,

для одинаковых по буквенному коду фонем производится накопление положений максимумов модуля биспектра (ММБ) в виде совокупной матрицы ММБ в частотной плоскости f1, f2, являющейся эталоном фонемы, эталоны фонем накапливаются в ДЗУ 7,for phonemes identical in alphabetic code, the positions of the maxima of the bispectrum module (IMB) are accumulated in the form of the aggregate IMB matrix in the frequency plane f 1 , f 2 , which is the phoneme standard, phoneme standards are accumulated in DZU 7,

перед распознаванием фонем оператор вводит значение порога по вероятности наличия ММБ, которое используется в процессе распознавания и хранится в ОЗУ 4,before recognition of phonemes, the operator enters the threshold value for the probability of the presence of IMB, which is used in the recognition process and stored in RAM 4,

при распознавании фонем оператор с помощью клавиатуры 8 набирает команду, в составе которой необходимо распознать фонему, при этом графическая реализация выбранной команды извлекается из ДЗУ 7 и через видеоконтроллер 12 передается на дисплей 9,when phonemes are recognized, the operator using the keyboard 8 dials a command, in which it is necessary to recognize the phoneme, while the graphic implementation of the selected command is extracted from the DZU 7 and transmitted via the video controller 12 to the display 9,

оператор выбирает фонему, которую необходимо распознать, и вводит ее буквенный код, сохраняемый в ОЗУ 4,the operator selects the phoneme that needs to be recognized, and enters its alphabetic code stored in RAM 4,

по цифровым последовательностям кодов, соответствующим выбранной фонеме, производятся аналогичные описанным выше операции: вычисление массива значений модуля спектра; вычисление массива значений модуля биспектра; выделение ММБ и определение их положений на частотной плоскости f1, f2,using digital code sequences corresponding to the selected phoneme, operations similar to those described above are performed: calculation of an array of values of the spectrum module; calculation of an array of bispectrum module values; the selection of IMB and the determination of their positions on the frequency plane f 1 , f 2 ,

далее производится сравнение положений ММБ распознаваемой фонемы с положениями ММБ каждого из эталонов фонем, при этом вероятность наличия ММБ в эталонах выше либо равна пороговому значению, определенному ранее оператором и хранящемся в ОЗУ 4,further, the IMB positions of the recognized phoneme are compared with the IMB positions of each of the phoneme standards, while the probability of the presence of IMB in the standards is higher or equal to the threshold value determined previously by the operator and stored in RAM 4,

решение о распознавании фонемы принимается по отношению числа совпадающих по положению ММБ распознаваемой фонемы с ММБ каждого из эталонов фонем и общим числом ММБ каждого из эталонов фонем. Та фонема, для эталона которой достигнут максимум этого отношения, считается распознанной, в соответствии с ней формируется буквенный код и сравнивается с буквенным кодом фонемы, ранее введенным оператором и извлекаемым из ОЗУ 4; в случае их совпадения фонема считается правильно распознанной; на дисплей 9 выводится распознаваемая и распознанная фонемы и решение о точности распознавания фонемы.a decision to recognize a phoneme is made in relation to the number of identifiable phonemes coinciding in the IMB position with the IMB of each of the phoneme patterns and the total number of IMB of each of the phoneme patterns. That phoneme, for the standard of which the maximum of this ratio is reached, is considered recognized, in accordance with it, an alphabetic code is formed and compared with the alphabetic code of the phoneme previously entered by the operator and extracted from RAM 4; if they coincide, the phoneme is considered correctly recognized; the display 9 displays a recognizable and recognized phoneme and a decision on the accuracy of recognition of the phoneme.

2. Устройство для реализации способа.2. A device for implementing the method.

Для реализации способа распознавания фонем речи предлагается устройство, представленное на фиг.5.To implement the method of recognition of phonemes of speech, the device shown in Fig.5.

Прототипом данного устройства является устройство [3], которое характеризуется наличиемThe prototype of this device is a device [3], which is characterized by the presence

микрофона для приема звуковых колебаний и преобразования их в электрические сигналы,a microphone for receiving sound vibrations and converting them into electrical signals,

аналого-цифрового преобразователя, осуществляющего преобразование электрических сигналов в цифровую последовательность кодов,analog-to-digital Converter, converting electrical signals into a digital sequence of codes,

блока обработки данных и управления (БОДУ), принимающего цифровую последовательность кодов,a data processing and control unit (BODU) receiving a digital sequence of codes,

анализатора спектра, входящего в состав БОДУ, реализованного на интегральной микросхеме, осуществляющего цифровой спектральный анализ речевых сигналов, используя алгоритм БПФ,spectrum analyzer, which is part of the BODU, implemented on an integrated circuit that performs digital spectral analysis of speech signals using the FFT algorithm,

в БОДУ производится:in BODU produced:

логический анализ последовательных спектров для формирования признаков сегментов речи,logical analysis of successive spectra to form features of speech segments,

отнесение сегмента речи к определенному классу фонем на основе сравнения признаков распознаваемого сегмента речи с признаками всех классов фонем, находящимися в памяти БОДУ,assignment of a speech segment to a specific class of phonemes based on a comparison of the characteristics of a recognizable speech segment with signs of all classes of phonemes in the BODU memory,

идентификация конкретной фонемы, относящейся к ранее определенному классу фонем, на основе сравнения спектральных признаков распознаваемой фонемы со спектральными признаками, однозначно характеризующими фонему на базе статистики голосов дикторов.identification of a specific phoneme related to a previously defined class of phonemes based on a comparison of the spectral features of a recognizable phoneme with spectral features that uniquely characterize a phoneme based on statistics of voice announcers.

Данное устройство по технической сущности является наиболее близким аналогом предлагаемого изобретения.This device by technical nature is the closest analogue of the invention.

Недостатком такого устройства является низкая точность распознавания фонем, обусловленная тем, что используются особенности спектра сигнала, соответствующего распознаваемой фонеме, которые не являются достаточно информативными и устойчивыми признаками из - за ограниченности размерности частотного пространства.The disadvantage of this device is the low accuracy of recognition of phonemes, due to the fact that they use the spectrum of the signal corresponding to the recognizable phoneme, which are not sufficiently informative and stable features due to the limited dimensionality of the frequency space.

Задачей предлагаемого устройства является повышение точности распознавания фонем речи.The objective of the proposed device is to increase the accuracy of recognition of phonemes of speech.

Поставленная задача достигается тем, что в устройство для реализации способа, содержащее микрофон и АЦП, дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, оперативное запоминающее устройство (ОЗУ), процессор, цифроаналоговый преобразователь (ЦАП), долговременное запоминающее устройство (ДЗУ), видеоконтроллер и АЦП, при этом АЦП выполнен с дополнительным входом, соединенным с тактовым генератором и с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники.This object is achieved by the fact that in the device for implementing the method containing a microphone and an ADC, a computer system is additionally introduced, including a clock generator, controller, random access memory (RAM), processor, digital-to-analog converter (DAC), long-term memory (DZU), a video controller and ADC, while the ADC is made with an additional input connected to a clock generator and with sixteen outputs, as well as a keyboard, display, and headphones.

На фиг.5 представлена функциональная схема устройства для реализации способа распознавания фонем речи, необходимая для выполнения предлагаемого способа как процесса выполнения действий над материальным объектом с помощью материальных средств, необходимых для осуществления заявленного изобретения, гдеFigure 5 presents a functional diagram of a device for implementing the method of recognition of phonemes of speech, necessary to perform the proposed method as a process of performing actions on a material object using material means necessary for the implementation of the claimed invention, where

1. Микрофон.1. Microphone.

2. Аналого-цифровой преобразователь (АЦП).2. An analog-to-digital converter (ADC).

3. Контроллер.3. The controller.

4. Оперативное запоминающее устройство (ОЗУ).4. Random access memory (RAM).

5. Процессор.5. The processor.

6. Тактовый генератор.6. The clock generator.

7. Долговременное запоминающее устройство (ДЗУ).7. Long-term storage device (DZU).

8. Клавиатура.8. The keyboard.

9. Дисплей.9. The display.

10. Цифроаналоговый преобразователь (ЦАП).10. Digital-to-analog converter (DAC).

11. Наушники.11. Headphones.

12 Видеоконтроллер.12 Video controller.

13. Вычислительная система.13. Computing system.

Пояснение работы устройства согласно фиг.5. An explanation of the operation of the device according to figure 5.

Устройство содержит вычислительную систему 13, включающую АЦП 2, тактовый генератор 6, контроллер 3, ОЗУ 4, процессор 5, ЦАП 10, ДЗУ 7, видеоконтроллер 12, а также микрофон 1, клавиатуру 8, дисплей 9, наушники 11, причемThe device comprises a computing system 13, including an ADC 2, a clock 6, a controller 3, RAM 4, a processor 5, a DAC 10, a DZU 7, a video controller 12, as well as a microphone 1, a keyboard 8, a display 9, headphones 11, and

выход микрофона 1 соединен с первым входом АЦП 2,the microphone output 1 is connected to the first input of the ADC 2,

выход тактового генератора 6 соединен со вторым входом АЦП 2, с первым входом контроллера 3, с первым входом процессора 5, с первым входом ОЗУ 4, с первым входом ЦАП 10, с первым входом ДЗУ 7,the output of the clock generator 6 is connected to the second input of the ADC 2, with the first input of the controller 3, with the first input of the processor 5, with the first input of RAM 4, with the first input of DAC 10, with the first input of DZU 7,

с первого по шестнадцатый выходы АЦП 2 соединены со второго по семнадцатый входами - выходами процессора 5, который предназначен для формирования биспектральных признаков и распознавания на их основе фонем речи, со второго по семнадцатый входами - выходами ОЗУ 4, со второго по семнадцатый входами - выходами ДЗУ 7, со второго по семнадцатый входами - выходами контроллера 3, со второго по семнадцатый входами ЦАП 10, с первого по шестнадцатый входами видеоконтроллера 12,from the first to sixteenth outputs of the ADC 2 are connected to the second to seventeenth inputs - the outputs of the processor 5, which is designed to form bispectral signs and recognition of phonemes of speech on their basis, from the second to seventeenth inputs - the outputs of RAM 4, from the second to seventeenth inputs - the outputs of the DZU 7, from the second to seventeenth inputs - the outputs of the controller 3, from the second to seventeenth inputs of the DAC 10, from the first to sixteenth inputs of the video controller 12,

выход ЦАП 10 соединен со входом наушников 11,the output of the DAC 10 is connected to the input of the headphones 11,

с первого по пятый выходы клавиатуры 8 соединены с восемнадцатого по двадцать второй входами контроллера 3,from the first to fifth outputs of the keyboard 8 are connected to the eighteenth to twenty second inputs of the controller 3,

с первого по пятнадцатый выходы видеоконтроллера 12 соединены с первого по пятнадцатый входами дисплея 9.the first to fifteenth outputs of the video controller 12 are connected to the first to fifteenth inputs of the display 9.

При произнесении речевой команды оператором осуществляется генерация звуковых колебаний, которые поступают на вход микрофона 1, где пьезоэлектрически осуществляется их преобразование в электрические сигналы.When a voice command is delivered by the operator, sound vibrations are generated, which are fed to the input of the microphone 1, where they are transformed into piezoelectric signals into electrical signals.

С выхода микрофона 1 электрические сигналы поступают на первый вход АЦП 2, где осуществляется их преобразование в цифровые последовательности шестнадцати разрядных двоичных кодов.From the output of the microphone 1, the electrical signals are fed to the first input of the ADC 2, where they are converted into digital sequences of sixteen bit binary codes.

Синхронизация работы АЦП 2, процессора 5, контроллера 3, ОЗУ 4, ЦАП 10, ДЗУ 7 осуществляется тактовым генератором 6. В соответствии с импульсами тактового генератора 6, поступающими на второй вход АЦП 2, со второго по семнадцатый выходов АЦП 2 при управлении контроллера 3 осуществляется передача цифровых последовательностей кодов на второй... семнадцатый входы - выходы ОЗУ 4 для их оперативного хранения и на второй... семнадцатый входы - выходы ДЗУ 7 для долгосрочного хранения.The synchronization of the ADC 2, processor 5, controller 3, RAM 4, DAC 10, DZU 7 is carried out by the clock generator 6. In accordance with the pulses of the clock generator 6 received at the second input of the ADC 2, from the second to the seventeenth outputs of the ADC 2 when controlling the controller 3 digital sequences of codes are transferred to the second ... seventeenth inputs - outputs of RAM 4 for their online storage and to the second ... seventeenth inputs - outputs of DZU 7 for long-term storage.

Для обучения системы распознаванию фонем создаются эталоны фонем. Для этого цифровые последовательности кодов, соответствующие произнесенным оператором речевым командам, передаются со второго по семнадцатый входов - выходов ОЗУ 4 на второй... семнадцатый входы - выходы процессора 5, где с помощью соответствующей программы осуществляется их преобразование к виду графической функции во времени, которая передается через видеоконтроллер 12 на дисплей 9.To train the phoneme recognition system, phoneme standards are created. For this, the digital code sequences corresponding to the speech commands spoken by the operator are transmitted from the second to the seventeenth inputs - the outputs of RAM 4 to the second ... seventeenth inputs - the outputs of the processor 5, where with the help of the corresponding program they are converted to the form of a graphic function in time, which transmitted through the video controller 12 to the display 9.

Оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды.The operator, analyzing the video information presented on the display screen 9, corresponding to the spoken command, carries out manual marking, which consists in setting the boundaries of the phoneme as part of the team.

При фиксировании границ фонем информация о номерах отсчетов поступает на восемнадцатый... двадцать второй входы контроллера 3 и через второй... семнадцатый входы - выходы контроллера 3 поступает на второй... семнадцатый входы - выходы процессора 5, где обрабатывается, после чего передается на второй... семнадцатый входы ЦАП 10, где осуществляется их преобразование в электрический сигнал, поступающий с выхода ЦАП 10 на вход наушников 11, где электрический сигнал преобразуется в звуковой сигнал.When fixing the boundaries of phonemes, information about the number of samples goes to the eighteenth ... twenty-second inputs of the controller 3 and through the second ... seventeenth inputs - the outputs of the controller 3 goes to the second ... seventeenth inputs - the outputs of the processor 5, where it is processed, and then transmitted on the second ... seventeenth inputs of the DAC 10, where they are converted into an electrical signal from the output of the DAC 10 to the input of the headphones 11, where the electrical signal is converted into an audio signal.

Оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, и вводит с помощью клавиатуры 8 состав команды и букву, соответствующие выделенной фонеме. Через контроллер 3 на второй... семнадцатый входы - выходы ОЗУ 4 поступают и накапливаются номера дискретных отсчетов начала и окончания фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем.The operator listens with a headphone 11 for an audio signal corresponding to the highlighted phoneme, and uses the keyboard 8 to enter the composition of the command and the letter corresponding to the highlighted phoneme. Through controller 3, to the second ... seventeenth inputs - outputs of RAM 4, the numbers of discrete samples of the beginning and end of phonemes and the corresponding letter codes, as well as commands containing phoneme borders are accumulated and accumulated.

Накопленная информация для долгосрочного хранения передается на второй... семнадцатый входы - выходы ДЗУ 7.The accumulated information for long-term storage is transmitted to the second ... seventeenth inputs - outputs of the DZU 7.

Для формирования эталонов фонем в процессоре 5 по программе производится выбор из ДЗУ 7 цифровых последовательностей кодов на основании информации о буквенном коде фонемы. Эта информация поступает на второй... семнадцатый входы - выходы процессора 5, где по программе с помощью алгоритма БПФ вычисляется массив значений модуля спектра.For the formation of phoneme standards in the processor 5, the program selects from the DZU 7 digital sequences of codes based on information about the phoneme's letter code. This information goes to the second ... seventeenth inputs - the outputs of the processor 5, where according to the program using the FFT algorithm, an array of values of the spectrum modulus is calculated.

Используя массив значений модуля спектра как промежуточную операцию, в процессоре 5 вычисляется массив значений модуля биспектра, примеры графических изображений которого для фонем А, С, Б показаны на фиг.2, фиг.3, фиг.4, (см. способ изобретения), выделяют максимумы значений модуля биспектра (ММБ) и определяют их положения в частотной плоскости f1, f2, формируют эталоны фонем, которые представляют собой совокупные матрицы биспектральных признаков, и передаются со второго по семнадцатый входов - выходов процессора 5 для долговременного хранения на второй... семнадцатый входы - выходы ДЗУ 7.Using the array of values of the spectrum module as an intermediate operation, the processor 5 calculates an array of values of the bispectrum module, examples of graphic images of which for phonemes A, C, B are shown in FIG. 2, FIG. 3, FIG. 4, (see the method of the invention), isolated maxima bispectrum modulus (IMB) and define their positions in the plane of the frequency f 1, f 2, form etalons phonemes that represent cumulative bispectral matrix signs, and transmitted from the second to seventeenth inputs - outputs of the CPU 5 for long-term storage the second ... the seventeenth Inputs - Outputs 7 DZU.

Информация об окончании формирования эталонов фонем поступает на первый... пятнадцатый входы дисплея 9.Information about the end of the formation of phoneme standards is received at the first ... fifteenth inputs of the display 9.

Оператор перед распознаванием фонем вводит с помощью клавиатуры 8 значение порога по вероятности наличия ММБ, которое, проходя через контроллер 3, поступает для хранения на второй... семнадцатый входы -выходы ОЗУ 4.Before recognition of phonemes, the operator enters using the keypad 8 the threshold value for the probability of the presence of IMB, which, passing through controller 3, arrives for storage at the second ... seventeenth inputs - outputs of RAM 4.

При распознавании фонем оператор с помощью клавиатуры 8 вводит команду, в составе которой необходимо распознать фонему. Эта информация поступает на восемнадцатый... двадцать второй входы контроллера 3 и далее на второй... семнадцатый входы - выходы ДЗУ 7, из которого извлекается графическая реализация выбранной команды, поступающая через видеоконтроллер 12 на первый... пятнадцатый входы дисплея 9.When recognizing phonemes, the operator uses the keypad 8 to enter a command, in which it is necessary to recognize the phoneme. This information goes to the eighteenth ... twenty-second inputs of the controller 3 and then to the second ... seventeenth inputs - the outputs of the DZU 7, from which the graphic implementation of the selected command is received, coming through the video controller 12 to the first ... fifteenth inputs of the display 9.

Оператор по графической реализации речевой команды выбирает фонему, которую необходимо распознать, и вводит с помощью клавиатуры 8 ее буквенный код, который через контроллер 3 передается на второй... семнадцатый входы - выходы ОЗУ 4 для хранения. Цифровые последовательности кодов, соответствующие выбранной оператором фонеме, обрабатываются, включая процедуру распознавания, в процессоре 5 по программе (см. способ изобретения).The operator for the graphic implementation of the speech command selects the phoneme that needs to be recognized, and uses its keyboard 8 to enter its alphabetic code, which through the controller 3 is transmitted to the second ... seventeenth inputs - the outputs of RAM 4 for storage. The digital code sequences corresponding to the phoneme selected by the operator are processed, including the recognition procedure, in the processor 5 according to the program (see the method of the invention).

Буквенный код распознанной фонемы в процессоре 5 сравнивается с буквенным кодом распознаваемой фонемы, поступающим из ОЗУ 4, с целью оценки точности распознавания фонем. Буквенные коды распознаваемой и распознанной фонем, а также решение о точности распознавания передаются со второго по семнадцатый входов - выходов процессора 5 на первый... шестнадцатый входы видеоконтроллера 12, где преобразуются в видеосигнал, который с первого по пятнадцатый выходов видеоконтроллера 12 передается для отображения на первый... пятнадцатый входы дисплея 9.The letter code of the recognized phoneme in the processor 5 is compared with the letter code of the recognized phoneme coming from RAM 4, in order to evaluate the accuracy of recognition of phonemes. Alphabetic codes of recognizable and recognized phonemes, as well as a decision on recognition accuracy, are transmitted from the second to seventeenth inputs - the outputs of the processor 5 to the first ... sixteenth inputs of the video controller 12, where they are converted into a video signal, which is transmitted from the first to the fifteenth outputs of the video controller 12 for display on first ... fifteenth display inputs 9.

Для выполнения заявляемого устройства используются следующие стандартные элементы:To perform the inventive device uses the following standard elements:

микрофон 1 - совместимый по стандарту АС'97;microphone 1 - compatible according to AC'97 standard;

аналого-цифровой преобразователь (АЦП) 2 - реализован в виде микросхемы по стандарту АС'97, известен из [6,стр.50];analog-to-digital converter (ADC) 2 - implemented as a chip according to the AC'97 standard, known from [6, p. 50];

контроллер 3 - реализован в виде микросхемы EVA-X1630C фирмы "ADVANTECH", известен из [6,стр.49];controller 3 - implemented in the form of an EVA-X1630C microcircuit manufactured by ADVANTECH, known from [6, p. 49];

оперативное запоминающее устройство (ОЗУ) 4 - реализовано в виде микросхемы SDDIMM [6,стр.50];random access memory (RAM) 4 - is implemented as an SDDIMM chip [6, p. 50];

процессор 5 - стандартная микросхема INTEL CELERON 400 [6,стр.50];processor 5 - standard chip INTEL CELERON 400 [6, p. 50];

тактовый генератор 6 - входит в состав микросхемы контроллера 3;.clock generator 6 - is part of the controller 3 ;.

долговременное запоминающее устройство (ДЗУ) 7 - выполнено в стандарте Compact Flash, объем памяти не менее 64 Мбайт [6,стр.205];long-term storage device (DZU) 7 - made in the Compact Flash standard, the memory capacity is at least 64 MB [6, p. 205];

клавиатура 8 - совместимая по стандарту PS/2;Keyboard 8 - PS / 2 compatible

дисплей 9 - совместимый по стандарту SVGA;display 9 - compatible with the SVGA standard;

цифроаналоговый преобразователь (ЦАП) 10 - реализован в составе микросхемы по стандарту АС'97 [6, стр.50];digital-to-analog converter (DAC) 10 - implemented as part of a microchip according to the AC'97 standard [6, p. 50];

наушники 11 - совместимые по стандарту АС'97;earphones 11 - compatible by AC'97 standard;

видеоконтроллер 12 -микросхема SMI 721 [6, стр.51];video controller 12 - microchip SMI 721 [6, p. 51];

вычислительная система 13 - модуль SOM-ETX4400 в виде печатной платы [6, стр. 50].computing system 13 - the SOM-ETX4400 module in the form of a printed circuit board [6, p. 50].

Использование изобретения позволит повысить точность распознавания фонем речи.Using the invention will improve the accuracy of recognition of phonemes of speech.

Источники информацииInformation sources

1. Патент ЕВП №420825 кл. G 10 L 5/06, опубликован в 1991 г.1. EPP patent No. 420825 class. G 10 L 5/06, published in 1991

2. Патент RU №2184399 кл. G 10 L 15/00//G 10 L 101:02, опубликован в 2002 г.2. Patent RU No. 2184399 class. G 10 L 15/00 // G 10 L 101: 02, published in 2002

3. Патент US №4852170 кл. 381/41, опубликован в 1989 г.3. US patent No. 4852170 class. 381/41, published in 1989

4. Ломанн А.В., Вирнитцер Б.В. Корреляционная функция третьего порядка// ТИИЭР, 1984, Т.72, №7.4. Lohmann A.V., Wirnitzer B.V. The correlation function of the third order // TIIER, 1984, T. 72, No. 7.

5. В.В.Латышев, И.С.Рыжак. Применение моментов, кумулянтов и спектров высоких порядков в современных методах обработки сигналов. - М.: МАИ. 1998.5. V.V. Latyshev, I. S. Ryzhak. Application of moments, cumulants and high-order spectra in modern signal processing methods. - M .: MAI. 1998.

6. ProSoft 9.0. Краткий каталог продукции 2003/2004.6. ProSoft 9.0. Short product catalog 2003/2004.

Claims (2)

1. Способ распознавания фонем речи, заключающийся в приеме звуковых сигналов, соответствующих речевым командам, и их преобразовании в электрические сигналы в микрофоне, в преобразовании электрических сигналов в цифровые последовательности кодов в аналого-цифровом преобразователе (АЦП), отличающийся тем, что цифровые последовательности кодов, полученные при аналого-цифровом преобразовании электрических сигналов, передаются в соответствии с тактовыми импульсами, поступающими из тактового генератора, в оперативное запоминающее устройство (ОЗУ) и долговременное запоминающее устройство (ДЗУ) вычислительной системы, преобразование цифровых последовательностей кодов, соответствующих речевым командам, в графические функции во времени осуществляется в процессоре, после чего для создания эталонов фонем производится их передача на видеоконтроллер для преобразования в видеосигнал и отображения на дисплее, в цифроаналоговом преобразователе (ЦАП) цифровые последовательности кодов преобразуются в электрические сигналы, в наушниках электрические сигналы преобразуются в звуковые сигналы, оператором производится видеоанализ информации на дисплее, и аудиоанализ звукового сигнала в наушниках с целью ручного выделения границ фонемы в составе речевой команды, ввод с помощью клавиатуры состава речевой команды и буквенного кода выделенной фонемы и передача этой информации для хранения в ОЗУ и ДЗУ, в процессоре по программе проводится обработка цифровых последовательностей кодов, соответствующих выделенным интервалам фонем, включающая вычисление массива значений модуля спектра, определяемого по алгоритму быстрого преобразования Фурье, преобразующему цифровую последовательность кодов, соответствующую выделенному интервалу фонемы, в массив значений модуля спектра |F(jf)|, где f - частота, соответствующая исследуемому речевому диапазону, далее проводится вычисление массива значений модуля биспектра |S(f1, f2)| как произведение трех значений модуля спектра по формуле 1. The method of recognition of phonemes of speech, which consists in receiving audio signals corresponding to speech commands, and converting them into electrical signals in a microphone, in converting electrical signals into digital code sequences in an analog-to-digital converter (ADC), characterized in that the digital code sequences obtained by analog-to-digital conversion of electrical signals are transmitted in accordance with the clock pulses coming from the clock generator into random access memory your (RAM) and long-term storage device (ROM) computer system, the conversion of digital sequences of codes corresponding to speech commands into graphic functions in time is carried out in the processor, after which they are transferred to a video controller to create phoneme standards for conversion into a video signal and displayed on the display, in a digital-to-analog converter (DAC), digital sequences of codes are converted into electrical signals, in headphones, electrical signals are converted into sound such signals, the operator performs video analysis of the information on the display, and audio analysis of the audio signal in the headphones with the aim of manually highlighting the boundaries of the phoneme as part of the speech command, entering the composition of the speech command and the letter code of the selected phoneme using the keyboard and transferring this information for storage in RAM and DZU, in the processor, the program processes digital sequences of codes corresponding to the selected phoneme intervals, including the calculation of the array of values of the spectrum module, determined by the fast cerned Fourier transform converts the digital code sequence corresponding to the selected interval of the phoneme in the array range of values of the modulus | F (jf) |, where f - frequency corresponding to the investigated range of speech further conducted calculation array bispectrum values of the modulus | S (f 1, f 2 ) | as the product of three values of the spectrum modulus by the formula |S(f1, f2)|=|F[-j(f1+f2)]|·|F(jf1)|·|F(jf2)|,| S (f 1 , f 2 ) | = | F [-j (f 1 + f 2 )] | · | F (jf 1 ) | · | F (jf 2 ) |, где f1, f2 - частоты, соответствующие исследуемому речевому диапазону, where f 1 , f 2 are the frequencies corresponding to the studied speech range, а в качестве значений модуля спектра |F[-j(f1+f2)]|, |F(jf1)|, |F(jf2)| используются значения из ранее вычисленного массива значений модуля спектра, при обработке массива значений модуля биспектра осуществляется выделение максимумов модуля биспектра (ММБ), фиксация положений ММБ, после чего, повторяя операции по вычислению массива значений модуля спектра, вычислению массива значений модуля биспектра, выделению ММБ и определению их положений на частотной плоскости f1 и f2 по всем одинаковым по буквенному коду фонемам из всего объема речевых команд формируются эталоны фонем, представляющие собой совокупные матрицы ММБ в точках частотной плоскости, после чего перед распознаванием оператором осуществляется ввод в ОЗУ значения порога по вероятности наличия ММБ, используемого при распознавании фонем, при распознавании произносимой оператором речевой команды оператором осуществляется выбор фонемы, подвергаемой распознаванию, в ОЗУ хранится буквенный код распознаваемой фонемы, в процессоре производится вычисление массива значений модуля спектра распознаваемой фонемы, вычисление массива значений модуля биспектра для распознаваемой фонемы, выделение в полученном массиве ММБ и фиксация положений ММБ, принятие решения о распознанной фонеме по максимуму отношения числа совпадающих по положению ММБ распознаваемой фонемы с ММБ каждого из эталонов фонем, к общему числу ММБ каждого из эталонов фонем, при этом вероятность наличия ММБ в эталонах выше либо равна пороговому значению, определенному ранее оператором, сравнение в процессоре буквенного кода распознанной фонемы и буквенного кода распознаваемой фонемы, извлеченного из ОЗУ, принятие решения о точности распознавания фонем речи и передача через видеоконтроллер для отображения на дисплее буквенных кодов распознаваемой и распознанной фонем, а также решения о точности распознавания фонем речи.and as the values of the spectrum modulus | F [-j (f 1 + f 2 )] |, | F (jf 1 ) |, | F (jf 2 ) | the values from the previously calculated array of values of the spectrum module are used, when processing the array of values of the bispectrum module, the maxima of the bispectrum module (IMB) are extracted, the positions of the IMB are fixed, then, repeating the operations of calculating the array of values of the spectrum module, calculating the array of values of the bispectrum module, extracting the IMB and the determination of their positions on the frequency plane f 1 and f 2 for all phonemes identical in alphabetic code from the total volume of speech commands, the phoneme standards are formed, which are aggregate IMB matrix at the points of the frequency plane, after which before recognition by the operator, the threshold value for the probability of MMB used in recognition of phonemes is entered into the RAM, when the operator recognizes the speech command spoken by the operator, the phoneme being recognized is selected, the alphabetic code of the recognized phoneme is stored in RAM, the processor calculates the array of values of the spectrum module of the recognizable phoneme, calculates the array of values of the bispectrum module for the recognizable phoneme , highlighting in the resulting IMB array and fixing the positions of IMBs, deciding on a recognized phoneme to maximize the ratio of the number of recognizable phonemes coinciding in the IMB position with the IMB of each of the phoneme patterns to the total number of IMBs of each of the phoneme patterns, while the probability of the presence of IMBs in the patterns is higher or equal to the threshold value previously determined by the operator, comparison in the processor of the alphabetic code of the recognized phoneme and the alphabetic code of the recognizable phoneme extracted from RAM, the decision on the accuracy of recognition of the background m of speech and transmission through a video controller to display alphabetic codes of recognizable and recognized phonemes on the display, as well as decisions about the accuracy of recognition of phonemes of speech. 2. Устройство распознавания фонем речи, содержащее микрофон и АЦП, при этом выход микрофона соединен с первым входом АЦП, отличающееся тем, что в него дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, ОЗУ, процессор, предназначенный для формирования биспектральных признаков и распознавания на их основе фонем речи, ЦАП, ДЗУ, видеоконтроллер и АЦП, который выполнен с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники, причем выход тактового генератора соединен со вторым входом АЦП, с первым входом контроллера, с первым входом процессора, с первым входом ОЗУ, с первым входом ЦАП, с первым входом ДЗУ, с первого по шестнадцатый выходы АЦП соединены со вторым по семнадцатый входами - выходами процессора, со вторым по семнадцатый входами - выходами ОЗУ, со вторым по семнадцатый входами - выходами ДЗУ, со вторым по семнадцатый входами - выходами контроллера, со вторым по семнадцатый входами ЦАП, с первым по шестнадцатый входами видеоконтроллера, выход ЦАП соединен со входом наушников, с первого по пятый выходы клавиатуры соединены с восемнадцатым по двадцать второй входами контроллера, с первого по пятнадцатый выходы видеоконтроллера соединены с первым по пятнадцатый входами дисплея.2. A speech phoneme recognition device containing a microphone and an ADC, the microphone output being connected to the first ADC input, characterized in that it additionally includes a computer system including a clock generator, controller, RAM, and a processor for generating bispectral features and recognition based on them, phonemes of speech, DAC, DZU, video controller and ADC, which is made with sixteen outputs, and the keyboard, display, headphones are also included in the device, and the output of the clock generator is connected to the second input the ADC house, with the first input of the controller, with the first input of the processor, with the first input of the RAM, with the first input of the DAC, with the first input of the DZU, the first to sixteenth outputs of the ADC are connected to the second to seventeenth inputs - the outputs of the processor, from the second to seventeenth inputs - RAM outputs, with the second to seventeenth inputs - the outputs of the ROM, with the second to seventeenth inputs - the outputs of the controller, with the second to seventeenth inputs of the DAC, with the first to sixteenth inputs of the video controller, the DAC output is connected to the headphone input, from the first to the fifth keyboard outputs ry connected to the eighteenth to twenty second inputs of the controller, from the first to fifteenth outputs of the video controller are connected to the first to fifteenth inputs of the display.
RU2004109253/09A 2004-03-30 2004-03-30 Method for recognition of speech patterns and device for realization of method RU2268504C9 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2004109253/09A RU2268504C9 (en) 2004-03-30 2004-03-30 Method for recognition of speech patterns and device for realization of method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2004109253/09A RU2268504C9 (en) 2004-03-30 2004-03-30 Method for recognition of speech patterns and device for realization of method

Publications (3)

Publication Number Publication Date
RU2004109253A RU2004109253A (en) 2005-10-10
RU2268504C1 RU2268504C1 (en) 2006-01-20
RU2268504C9 true RU2268504C9 (en) 2006-06-27

Family

ID=35850718

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004109253/09A RU2268504C9 (en) 2004-03-30 2004-03-30 Method for recognition of speech patterns and device for realization of method

Country Status (1)

Country Link
RU (1) RU2268504C9 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2597498C1 (en) * 2015-03-31 2016-09-10 Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук Speech recognition method based on two-level morphophonemic prefix graph

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2466468C1 (en) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров System and method of speech recognition
RU2553413C2 (en) * 2012-08-29 2015-06-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Method of detecting emotional state of person from voice

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Программа пофонемного распознавания - RecHMM. Audi Tech. Inc. Санкт-Петербург, 1999, найдено на http://www.auditech.ru. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2597498C1 (en) * 2015-03-31 2016-09-10 Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук Speech recognition method based on two-level morphophonemic prefix graph

Also Published As

Publication number Publication date
RU2004109253A (en) 2005-10-10
RU2268504C1 (en) 2006-01-20

Similar Documents

Publication Publication Date Title
CN108597496B (en) Voice generation method and device based on generation type countermeasure network
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN108182937B (en) Keyword recognition method, device, equipment and storage medium
EP0178509B1 (en) Dictionary learning system for speech recognition
CN102208186B (en) Chinese phonetic recognition method
CN1167045C (en) Speech recongition method and device
RU2466468C1 (en) System and method of speech recognition
CN1013525B (en) Real-time phonetic recognition method and device with or without function of identifying a person
WO1996013828A1 (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
CN1991976A (en) Phoneme based voice recognition method and system
CN1160450A (en) System for recognizing spoken sounds from continuous speech and method of using same
JP2001166789A (en) Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
He et al. Stress detection using speech spectrograms and sigma-pi neuron units
CN105916090A (en) Hearing aid system based on intelligent speech recognition technology
CN104157288A (en) Speech recognition with a plurality of microphones
RU2268504C1 (en) Method for recognition of speech patterns and device for realization of method
CN113223492A (en) Voice broadcasting system
RU2296376C2 (en) Method for recognizing spoken words
Mishra et al. Real time emotion detection from speech using Raspberry Pi 3
Kanisha et al. Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization
RU80000U1 (en) DEVICE FOR PHONETIC SPEECH ANALYSIS
CN101246686A (en) Method and device for identifying analog national language single tone by continuous quadratic Bayes classification method
CN113658599A (en) Conference record generation method, device, equipment and medium based on voice recognition
JP6003352B2 (en) Data generation apparatus and data generation method
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language

Legal Events

Date Code Title Description
TH4A Reissue of patent specification
MM4A The patent is invalid due to non-payment of fees

Effective date: 20090331