RU2268504C9 - Method for recognition of speech patterns and device for realization of method - Google Patents
Method for recognition of speech patterns and device for realization of method Download PDFInfo
- Publication number
- RU2268504C9 RU2268504C9 RU2004109253/09A RU2004109253A RU2268504C9 RU 2268504 C9 RU2268504 C9 RU 2268504C9 RU 2004109253/09 A RU2004109253/09 A RU 2004109253/09A RU 2004109253 A RU2004109253 A RU 2004109253A RU 2268504 C9 RU2268504 C9 RU 2268504C9
- Authority
- RU
- Russia
- Prior art keywords
- phoneme
- speech
- recognition
- phonemes
- values
- Prior art date
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Изобретение относится к области анализа и распознавания речевых сигналов и касается способа распознавания фонем речи на основе использования сформированных биспектральных признаков фонем и устройства для реализации способа.The invention relates to the field of analysis and recognition of speech signals and relates to a method for recognizing phonemes of speech based on the use of generated bispectral features of phonemes and devices for implementing the method.
Известен способ распознавания слов речи [1], в котором слова хранятся в словаре в виде фонетической модели, составленной из последовательности фонетических символов, соответствующих фонемам слова. Для каждой фонемы из слова определяются характерные параметры (признаки). Для получения признаков фонем используют представление речевого сигнала в спектральной области, т.е. речевой сигнал подвергается спектральному анализу, который осуществляется с помощью алгоритмов быстрого преобразования Фурье (БПФ).A known method for recognizing speech words [1], in which words are stored in the dictionary in the form of a phonetic model, composed of a sequence of phonetic symbols corresponding to the phonemes of the word. For each phoneme from the word, characteristic parameters (attributes) are determined. To obtain phoneme features, a speech signal representation in the spectral region is used, i.e. the speech signal is subjected to spectral analysis, which is carried out using fast Fourier transform (FFT) algorithms.
Формирование признаков фонем в данном способе основано на выделении контура особенностей спектра путем оценки спектральной плотности мощности в различных частотных полосах, нахождении максимумов энергии спектра (измерении формантных частот).The formation of phoneme signs in this method is based on the allocation of the spectrum features by evaluating the spectral power density in different frequency bands, finding the maximum energy of the spectrum (measuring the formant frequencies).
Недостатком данного способа является то, что спектральные признаки не всегда являются устойчивыми и не обеспечивают высокой точности распознавания фонем.The disadvantage of this method is that the spectral features are not always stable and do not provide high accuracy of recognition of phonemes.
Известен также способ выделения такого признака фонем вокализованных звуков, как частота основного тона [2]. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, оценке средней частоты основного тона исследуемого речевого сигнала, соответствующего фонеме вокализованного звука, путем аппроксимации оценок частоты основного тона, полученных с помощью трех видов параллельных выделителей.There is also a method of distinguishing such a sign of phonemes of voiced sounds, as the frequency of the fundamental tone [2]. The method is based on the decomposition of the speech signal into a sequence of Fourier spectra, finding the absolute maximum, estimating the average frequency of the fundamental tone of the studied speech signal, corresponding to the phoneme of voiced sound, by approximating the estimates of the fundamental frequency obtained using three types of parallel separators.
Недостатком данного способа является не очень высокая точность в определении частоты основного тона, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в ее состав.The disadvantage of this method is the not very high accuracy in determining the frequency of the fundamental tone, which is associated with a strong dependence of the circuit as a whole on the accuracy of each algorithm included in its composition.
Наиболее близким к предлагаемому способу является способ распознавания фонем речи, принятый за прототип, реализованный в системе распознавания речи в реальном времени на базе средств вычислительной техники [3], базирующийся на представлении слов в виде последовательностей характерных сегментов, в целом соответствующих фонемам речи. Каждый сегмент описывается ограниченным набором признаков, а каждое слово описывается последовательностью таких сегментов.Closest to the proposed method is a speech phoneme recognition method adopted as a prototype implemented in real-time speech recognition system based on computer technology [3], based on the representation of words in the form of sequences of characteristic segments, generally corresponding to speech phonemes. Each segment is described by a limited set of attributes, and each word is described by a sequence of such segments.
Для выделения признаков речевой сигнал, соответствующий сегменту (фонеме) речи, преобразуется в аналого-цифровом преобразователе (АЦП) в цифровые последовательности кодов, подвергаемые в анализаторе спектра спектральному анализу с помощью использования алгоритма быстрого преобразования Фурье (БПФ).To distinguish features, the speech signal corresponding to the speech segment (phoneme) is converted in an analog-to-digital converter (ADC) into digital code sequences subjected to spectral analysis in the spectrum analyzer using the Fast Fourier Transform (FFT) algorithm.
Путем анализа полученных последовательных спектров в блоке обработки данных и управления производится формирование таких признаков фонем, как положения формантных частот (с помощью нахождения максимумов спектра), динамика изменения энергии спектра в специально подобранных частотных полосах. Процедура распознавания фонем в данном способе основана на сравнении сформированных признаков сегмента речи с признаками эталонов фонем, либо классов фонем, хранящихся в памяти блока обработки данных и управления, в результате чего последовательно осуществляется отнесение распознаваемой фонемы к классу фонем, а затем идентифицируется конкретная фонема.By analyzing the obtained successive spectra in the data processing and control unit, the formation of such phoneme attributes as the positions of the formant frequencies (by finding the maximums of the spectrum), the dynamics of the spectrum energy in specially selected frequency bands are formed. The phoneme recognition procedure in this method is based on comparing the generated features of the speech segment with the signs of phoneme patterns or phoneme classes stored in the memory of the data processing and control unit, as a result of which the recognized phoneme is sequentially assigned to the phoneme class, and then a specific phoneme is identified.
Таким образом, признаки фонем в данном способе формируются, учитывая свойства спектров соответствующих участков речи.Thus, the signs of phonemes in this method are formed, taking into account the properties of the spectra of the corresponding sections of speech.
Недостатком данного способа является невысокая точность распознавания фонем вследствие использования неустойчивых информативных признаков фонем, базирующихся на использовании спектрального представления.The disadvantage of this method is the low accuracy of recognition of phonemes due to the use of unstable informative features of phonemes based on the use of spectral representation.
Задачей изобретения в части способа является повышение точности распознавания фонем речи.The objective of the invention in terms of the method is to increase the accuracy of recognition of phonemes of speech.
Принципиально новым подходом к решению задачи повышения точности распознавания фонем является применение для формирования признаков и распознавания фонем биспектрального анализа, базирующегося на особого вида преобразовании цифровых последовательностей кодов, соответствующих речевым сигналам, в биспектральную область, характеризующую взаимодействия между значениями компонентов Фурье на разных частотах в диапазоне речи, таким образом обеспечивается выделение дополнительной, существенно новой информации из распознаваемых речевых сигналов.A fundamentally new approach to solving the problem of increasing the accuracy of phoneme recognition is the use of bispectral analysis, based on a special type of transformation of digital sequences of codes corresponding to speech signals, into a bispectral region characterizing the interactions between the values of the Fourier components at different frequencies in the speech range Thus, the allocation of additional, essentially new information from recognized speech x signals.
Задача изобретения достигается тем, что в способе распознавания фонем речи осуществляется прием звуковых колебаний, соответствующих речевым командам, и их преобразование в электрические сигналы, аналого-цифровое преобразование электрических сигналов в цифровые последовательности кодов, которые преобразуют к виду графических функций во времени, при анализе которых на дисплее оператор устанавливает границы фонем в составе речевых команд, одновременно прослушивая в наушниках звуковые сигналы, соответствующие выделенным участкам речевых команд.The objective of the invention is achieved by the fact that in the method of recognition of phonemes of speech, sound vibrations corresponding to speech commands are received and converted into electrical signals, analog-to-digital conversion of electrical signals into digital sequences of codes that convert to the form of graphic functions in time, upon analysis of which on the display, the operator sets the boundaries of phonemes as part of speech commands, while simultaneously listening to the sound signals in the headphones corresponding to the selected sections of the speech out teams.
В вычислительной системе по интервалам внутри выделенных границ фонем осуществляется обработка соответствующих цифровых последовательностей кодов, заключающаяся в формировании биспектральных признаков фонем. Формирование биспектральных признаков основано на преобразовании цифровых последовательностей кодов в область биспектра, который, благодаря своим свойствам, обеспечивает более полное выделение информации из сигнала, что дает повышение точности при распознавании фонем.In the computing system, at intervals within the selected boundaries of the phonemes, the processing of the corresponding digital code sequences is carried out, which consists in the formation of bispectral features of phonemes. The formation of bispectral features is based on the conversion of digital code sequences into the bispectrum region, which, due to its properties, provides a more complete selection of information from the signal, which increases the accuracy of phoneme recognition.
Накапливая сформированные биспектральные признаки для одинаковых по буквенному коду фонем из разных речевых команд, формируются эталоны фонем (совокупные матрицы биспектральных признаков). При распознавании фонем оператор на основе аудиовизуального анализа выделяет границы фонемы, подвергаемой распознаванию (ее буквенный код хранится в памяти вычислительной системы). Для цифровых последовательностей кодов, соответствующих выделенному интервалу, осуществляется формирование биспектральных признаков и их сравнение с эталонами всех фонем для получения решения о распознанной фонеме.Accumulating the formed bispectral attributes for phonemes identical in the alphabetic code from different speech commands, the phoneme standards (aggregate matrices of bispectral attributes) are formed. When recognizing phonemes, the operator, on the basis of audiovisual analysis, identifies the boundaries of the phoneme being recognized (its letter code is stored in the memory of the computer system). For digital sequences of codes corresponding to the selected interval, bispectral features are formed and compared with the standards of all phonemes to obtain a decision on the recognized phoneme.
Точность распознавания фонем определяется путем сравнения буквенного кода распознанной фонемы с буквенным кодом распознаваемой фонемы, извлекаемым из памяти вычислительной системы.The recognition accuracy of phonemes is determined by comparing the letter code of the recognized phoneme with the letter code of the recognized phoneme, extracted from the memory of the computer system.
Изобретение поясняется чертежами.The invention is illustrated by drawings.
На фиг.1 показаны области симметрии и область существования модуля биспектра в частотной плоскости f1, f2, где f1, f2 - оси частот, соответствующих исследуемому диапазону речевого сигнала (0-8 кГц).Figure 1 shows the region of symmetry and the region of existence of the bispectrum module in the frequency plane f 1 , f 2 , where f 1 , f 2 are the frequency axes corresponding to the studied range of the speech signal (0-8 kHz).
Модулю биспектра присущи свойства симметрии, которые отражаются на фиг.1 в виде областей симметрии. Для полного описания модуля биспектра достаточно использовать только одну область симмметрии, называемую областью существования модуля биспектра, ограниченную заштрихованным треугольником ОЕХ на фиг.1.The bispectrum module has inherent symmetry properties, which are reflected in figure 1 in the form of symmetry regions. For a complete description of the bispectrum module, it is sufficient to use only one region of symmetry, called the region of existence of the bispectrum module, limited by the shaded triangle OEX in Fig. 1.
На фиг.2 - 4 показаны примеры графических изображений массивов значений модулей биспектра фонем А, С, Б, эквивалентных области, ограниченной треугольником OXY, включающем две симметричные области ОЕХ и OEY, показанные на фиг.1.Figure 2-4 shows examples of graphical images of arrays of values of the bispectrum modules of phonemes A, C, B, equivalent to the region bounded by the triangle OXY, including two symmetric regions OEX and OEY, shown in figure 1.
Массивы значений модуля биспектра в указанных примерах вычислены по заявляемому способу, где f1, f2 - оси частот (шаг дискретизации 125 Гц).The arrays of values of the bispectrum module in these examples are calculated by the claimed method, where f 1 , f 2 - frequency axis (sampling step 125 Hz).
На фиг.5 представлена функциональная схема устройства для реализации способа.Figure 5 presents a functional diagram of a device for implementing the method.
Схема включает следующие элементы:The scheme includes the following elements:
1. Микрофон - осуществляет прием звуковых колебаний, соответствующих речевым командам, и преобразование их в электрические сигналы;1. Microphone - receives sound vibrations corresponding to speech commands, and converts them into electrical signals;
2. Аналого-цифровой преобразователь (АЦП) - преобразует электрические сигналы в цифровые последовательности кодов;2. Analog-to-digital converter (ADC) - converts electrical signals into digital code sequences;
3. Контроллер - осуществляет управление информацией в вычислительной системе;3. Controller - provides information management in a computer system;
4. Оперативное запоминающее устройство (ОЗУ) - накапливает и сохраняет цифровую информацию о фонемах, используемую в оперативном режиме;4. Random access memory (RAM) - accumulates and stores digital information about phonemes used in online mode;
5. Процессор - производит по программе необходимые преобразования и вычисления;5. Processor - makes the necessary transformations and calculations according to the program;
6. Тактовый генератор - производит синхронизацию работы АЦП, процессора, контроллера, ОЗУ, цифроаналогового преобразователя (ЦАП), долговременного запоминающего устройства (ДЗУ);6. Clock generator - synchronizes the operation of the ADC, processor, controller, RAM, digital-to-analog converter (DAC), long-term storage device (DZU);
7. Долговременное запоминающее устройство (ДЗУ) - накапливает цифровую информацию о фонемах, необходимую для долгосрочного хранения;7. Long-term storage device (DZU) - accumulates digital information about phonemes necessary for long-term storage;
8. Клавиатура - предназначена для ввода оператором информации по анализируемым и распознаваемым фонемам из речевых команд;8. Keyboard - designed for the operator to enter information on the analyzed and recognizable phonemes from speech commands;
9. Дисплей - производит отображение информации о фонемах для оператора;9. Display - displays phoneme information for the operator;
10. Цифроаналоговый преобразователь (ЦАП) - осуществляет преобразование цифровых последовательностей кодов, соответствующих фонемам речи, в электрические сигналы;10. Digital-to-analog converter (DAC) - converts digital sequences of codes corresponding to speech phonemes into electrical signals;
11. Наушники - преобразуют электрические сигналы в звуковые сигналы;11. Headphones - convert electrical signals into audio signals;
12. Видеоконтроллер - преобразует информацию в видеосигнал для отображения на дисплее;12. Video controller - converts information into a video signal for display;
13. Вычислительная система - включает в свой состав блоки, осуществляющие: преобразование электрических сигналов, соответствующих звуковым колебаниям, в цифровые последовательности кодов, вычисление параметров, необходимых для формирования признаков и распознавания фонем, передачу информации в другие блоки устройства.13. Computing system - includes blocks that implement: converting electrical signals corresponding to sound vibrations into digital sequences of codes, calculating the parameters necessary for the formation of signs and recognition of phonemes, transmitting information to other blocks of the device.
Заявляемый способ осуществляется следующим образом:The inventive method is as follows:
прием звуковых колебаний, соответствующих произносимым оператором речевым командам, и их преобразование в электрические сигналы осуществляется микрофоном 1, затем сигнал поступает в аналого-цифровой преобразователь (АЦП) 2, где осуществляется преобразование электрических сигналов в цифровые последовательности кодов, которые при управлении контроллера 3 вычислительной системы 13 передаются в оперативное запоминающее устройство (ОЗУ) 4 для хранения и использования при последующей обработке в процессоре 5,reception of sound vibrations corresponding to the speech commands delivered by the operator, and their conversion into electrical signals is carried out by
синхронизация работы АЦП 2, контроллера 3, ОЗУ 4, долговременного запоминающего устройства (ДЗУ) 7, цифроаналогового преобразователя (ЦАП) 10 и процессора 5 осуществляется тактовым генератором 6,the synchronization of the
для обучения системы распознаванию фонем создаются эталоны фонем, с этой целью цифровые последовательности кодов, соответствующие произнесенным оператором командам, передаются из ОЗУ 4 в процессор 5, где с помощью программы осуществляется их преобразование к виду графической функции во времени, передаваемой через видеоконтроллер 12 на дисплей 9,To train the phoneme recognition system, phoneme standards are created, for this purpose digital code sequences corresponding to the commands spoken by the operator are transferred from
оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды,the operator, analyzing the video information presented on the
одновременно оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, получаемый путем обработки цифровых последовательностей кодов в процессоре 5, передачи их в ЦАП 10, где осуществляется их преобразование в электрический сигнал, преобразуемый в наушниках 11 в звуковой сигнал,at the same time, the operator listens with the aid of the
оператор вводит с помощью клавиатуры 8 состав команды и букву, соответствующую выделенной фонеме,the operator enters using the
в ОЗУ 4 накапливаются номера дискретных отсчетов начала и конца выделенных фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем,in
накопленная информация передается для хранения в ДЗУ 7,the accumulated information is transmitted for storage in
для формирования эталонов фонем процессором 5 по программе на основании буквенного кода фонемы производится выбор из ДЗУ 7 соответствующих цифровых последовательностей кодов,for the formation of phoneme standards by the
далее в процессоре 5 с помощью алгоритма БПФ вычисляется массив значений модуля спектра |F(jf)|,further, in
где f - частота, соотвествующая речевому диапазону 0-8 кГц,where f is the frequency corresponding to the speech range of 0-8 kHz,
массив значений модуля биспектра вычисляется как произведение трех преобразований Фурье (модулей спектра) [4, 5] в следующем виде:the array of values of the bispectrum module is calculated as the product of three Fourier transforms (spectrum modules) [4, 5] in the following form:
|S(f1, f2)|=|F[-j(f1+f2)]|·|F(jf1)|·|F(jf2)|| S (f 1 , f 2 ) | = | F [-j (f 1 + f 2 )] | · | F (jf 1 ) | · | F (jf 2 ) |
где f1, f2 - частоты, соответствующие исследуемому диапазону речевого сигнала (0-8 кГц с шагом дискретизации 125 Гц),where f 1 , f 2 are the frequencies corresponding to the studied range of the speech signal (0-8 kHz with a sampling step of 125 Hz),
причем в качестве значений модулей спектра |F[-j (f1+f2)]|, |F(jf1)|, |F(jf2)| используются значения из ранее вычисленного массива значений модуля спектра.moreover, as the values of the spectrum moduli | F [-j (f 1 + f 2 )] |, | F (jf 1 ) |, | F (jf 2 ) | values from a previously computed array of spectrum modulus values are used.
На фиг.2, фиг.3, фиг.4 показаны примеры графических изображений массивов значений модуля биспектра фонем А, С, Б, вычисленных по заявляемому способу; представленные примеры показывают различные распределения максимумов в массиве значений модуля биспектра для разных фонем. Анализ одинаковых по буквенному коду фонем показывает близость областей наличия максимумов модуля биспектра. При этом каждая из фонем характеризуется индивидуальным расположением областей наличия значений максимумов модуля биспектра высокой интенсивности, в частности, как видно из фиг.2, фиг.3, фиг.4, для фонем А, Б характерно наличие значений максимумов модуля биспектра высокой интенсивности в области низких частот (до 2-х кГц), а для фонемы С - в области высоких частот (выше 4-х кГц). Эти свойства использовались в заявляемом способе при распознавании фонем.Figure 2, figure 3, figure 4 shows examples of graphic images of arrays of values of the module of the bispectrum of phonemes A, C, B, calculated by the present method; the presented examples show different maximum distributions in the array of values of the bispectrum modulus for different phonemes. An analysis of phonemes identical in letter code shows the proximity of the areas of the presence of maxima of the bispectrum modulus. In this case, each of the phonemes is characterized by an individual arrangement of the regions where the maximum values of the high-intensity bispectrum modulus are present, in particular, as can be seen from FIG. 2, FIG. 3, and FIG. low frequencies (up to 2 kHz), and for the phoneme C in the high frequency region (above 4 kHz). These properties were used in the claimed method for recognition of phonemes.
В полученном массиве значений модуля биспектра выделяются максимумы и определяются их положения в частотной плоскости f1, f2,In the resulting array of values of the bispectrum modulus, maxima are selected and their positions in the frequency plane f 1 , f 2 are determined,
для одинаковых по буквенному коду фонем производится накопление положений максимумов модуля биспектра (ММБ) в виде совокупной матрицы ММБ в частотной плоскости f1, f2, являющейся эталоном фонемы, эталоны фонем накапливаются в ДЗУ 7,for phonemes identical in alphabetic code, the positions of the maxima of the bispectrum module (IMB) are accumulated in the form of the aggregate IMB matrix in the frequency plane f 1 , f 2 , which is the phoneme standard, phoneme standards are accumulated in
перед распознаванием фонем оператор вводит значение порога по вероятности наличия ММБ, которое используется в процессе распознавания и хранится в ОЗУ 4,before recognition of phonemes, the operator enters the threshold value for the probability of the presence of IMB, which is used in the recognition process and stored in
при распознавании фонем оператор с помощью клавиатуры 8 набирает команду, в составе которой необходимо распознать фонему, при этом графическая реализация выбранной команды извлекается из ДЗУ 7 и через видеоконтроллер 12 передается на дисплей 9,when phonemes are recognized, the operator using the
оператор выбирает фонему, которую необходимо распознать, и вводит ее буквенный код, сохраняемый в ОЗУ 4,the operator selects the phoneme that needs to be recognized, and enters its alphabetic code stored in
по цифровым последовательностям кодов, соответствующим выбранной фонеме, производятся аналогичные описанным выше операции: вычисление массива значений модуля спектра; вычисление массива значений модуля биспектра; выделение ММБ и определение их положений на частотной плоскости f1, f2,using digital code sequences corresponding to the selected phoneme, operations similar to those described above are performed: calculation of an array of values of the spectrum module; calculation of an array of bispectrum module values; the selection of IMB and the determination of their positions on the frequency plane f 1 , f 2 ,
далее производится сравнение положений ММБ распознаваемой фонемы с положениями ММБ каждого из эталонов фонем, при этом вероятность наличия ММБ в эталонах выше либо равна пороговому значению, определенному ранее оператором и хранящемся в ОЗУ 4,further, the IMB positions of the recognized phoneme are compared with the IMB positions of each of the phoneme standards, while the probability of the presence of IMB in the standards is higher or equal to the threshold value determined previously by the operator and stored in
решение о распознавании фонемы принимается по отношению числа совпадающих по положению ММБ распознаваемой фонемы с ММБ каждого из эталонов фонем и общим числом ММБ каждого из эталонов фонем. Та фонема, для эталона которой достигнут максимум этого отношения, считается распознанной, в соответствии с ней формируется буквенный код и сравнивается с буквенным кодом фонемы, ранее введенным оператором и извлекаемым из ОЗУ 4; в случае их совпадения фонема считается правильно распознанной; на дисплей 9 выводится распознаваемая и распознанная фонемы и решение о точности распознавания фонемы.a decision to recognize a phoneme is made in relation to the number of identifiable phonemes coinciding in the IMB position with the IMB of each of the phoneme patterns and the total number of IMB of each of the phoneme patterns. That phoneme, for the standard of which the maximum of this ratio is reached, is considered recognized, in accordance with it, an alphabetic code is formed and compared with the alphabetic code of the phoneme previously entered by the operator and extracted from
2. Устройство для реализации способа.2. A device for implementing the method.
Для реализации способа распознавания фонем речи предлагается устройство, представленное на фиг.5.To implement the method of recognition of phonemes of speech, the device shown in Fig.5.
Прототипом данного устройства является устройство [3], которое характеризуется наличиемThe prototype of this device is a device [3], which is characterized by the presence
микрофона для приема звуковых колебаний и преобразования их в электрические сигналы,a microphone for receiving sound vibrations and converting them into electrical signals,
аналого-цифрового преобразователя, осуществляющего преобразование электрических сигналов в цифровую последовательность кодов,analog-to-digital Converter, converting electrical signals into a digital sequence of codes,
блока обработки данных и управления (БОДУ), принимающего цифровую последовательность кодов,a data processing and control unit (BODU) receiving a digital sequence of codes,
анализатора спектра, входящего в состав БОДУ, реализованного на интегральной микросхеме, осуществляющего цифровой спектральный анализ речевых сигналов, используя алгоритм БПФ,spectrum analyzer, which is part of the BODU, implemented on an integrated circuit that performs digital spectral analysis of speech signals using the FFT algorithm,
в БОДУ производится:in BODU produced:
логический анализ последовательных спектров для формирования признаков сегментов речи,logical analysis of successive spectra to form features of speech segments,
отнесение сегмента речи к определенному классу фонем на основе сравнения признаков распознаваемого сегмента речи с признаками всех классов фонем, находящимися в памяти БОДУ,assignment of a speech segment to a specific class of phonemes based on a comparison of the characteristics of a recognizable speech segment with signs of all classes of phonemes in the BODU memory,
идентификация конкретной фонемы, относящейся к ранее определенному классу фонем, на основе сравнения спектральных признаков распознаваемой фонемы со спектральными признаками, однозначно характеризующими фонему на базе статистики голосов дикторов.identification of a specific phoneme related to a previously defined class of phonemes based on a comparison of the spectral features of a recognizable phoneme with spectral features that uniquely characterize a phoneme based on statistics of voice announcers.
Данное устройство по технической сущности является наиболее близким аналогом предлагаемого изобретения.This device by technical nature is the closest analogue of the invention.
Недостатком такого устройства является низкая точность распознавания фонем, обусловленная тем, что используются особенности спектра сигнала, соответствующего распознаваемой фонеме, которые не являются достаточно информативными и устойчивыми признаками из - за ограниченности размерности частотного пространства.The disadvantage of this device is the low accuracy of recognition of phonemes, due to the fact that they use the spectrum of the signal corresponding to the recognizable phoneme, which are not sufficiently informative and stable features due to the limited dimensionality of the frequency space.
Задачей предлагаемого устройства является повышение точности распознавания фонем речи.The objective of the proposed device is to increase the accuracy of recognition of phonemes of speech.
Поставленная задача достигается тем, что в устройство для реализации способа, содержащее микрофон и АЦП, дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, оперативное запоминающее устройство (ОЗУ), процессор, цифроаналоговый преобразователь (ЦАП), долговременное запоминающее устройство (ДЗУ), видеоконтроллер и АЦП, при этом АЦП выполнен с дополнительным входом, соединенным с тактовым генератором и с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники.This object is achieved by the fact that in the device for implementing the method containing a microphone and an ADC, a computer system is additionally introduced, including a clock generator, controller, random access memory (RAM), processor, digital-to-analog converter (DAC), long-term memory (DZU), a video controller and ADC, while the ADC is made with an additional input connected to a clock generator and with sixteen outputs, as well as a keyboard, display, and headphones.
На фиг.5 представлена функциональная схема устройства для реализации способа распознавания фонем речи, необходимая для выполнения предлагаемого способа как процесса выполнения действий над материальным объектом с помощью материальных средств, необходимых для осуществления заявленного изобретения, гдеFigure 5 presents a functional diagram of a device for implementing the method of recognition of phonemes of speech, necessary to perform the proposed method as a process of performing actions on a material object using material means necessary for the implementation of the claimed invention, where
1. Микрофон.1. Microphone.
2. Аналого-цифровой преобразователь (АЦП).2. An analog-to-digital converter (ADC).
3. Контроллер.3. The controller.
4. Оперативное запоминающее устройство (ОЗУ).4. Random access memory (RAM).
5. Процессор.5. The processor.
6. Тактовый генератор.6. The clock generator.
7. Долговременное запоминающее устройство (ДЗУ).7. Long-term storage device (DZU).
8. Клавиатура.8. The keyboard.
9. Дисплей.9. The display.
10. Цифроаналоговый преобразователь (ЦАП).10. Digital-to-analog converter (DAC).
11. Наушники.11. Headphones.
12 Видеоконтроллер.12 Video controller.
13. Вычислительная система.13. Computing system.
Пояснение работы устройства согласно фиг.5. An explanation of the operation of the device according to figure 5.
Устройство содержит вычислительную систему 13, включающую АЦП 2, тактовый генератор 6, контроллер 3, ОЗУ 4, процессор 5, ЦАП 10, ДЗУ 7, видеоконтроллер 12, а также микрофон 1, клавиатуру 8, дисплей 9, наушники 11, причемThe device comprises a
выход микрофона 1 соединен с первым входом АЦП 2,the
выход тактового генератора 6 соединен со вторым входом АЦП 2, с первым входом контроллера 3, с первым входом процессора 5, с первым входом ОЗУ 4, с первым входом ЦАП 10, с первым входом ДЗУ 7,the output of the clock generator 6 is connected to the second input of the
с первого по шестнадцатый выходы АЦП 2 соединены со второго по семнадцатый входами - выходами процессора 5, который предназначен для формирования биспектральных признаков и распознавания на их основе фонем речи, со второго по семнадцатый входами - выходами ОЗУ 4, со второго по семнадцатый входами - выходами ДЗУ 7, со второго по семнадцатый входами - выходами контроллера 3, со второго по семнадцатый входами ЦАП 10, с первого по шестнадцатый входами видеоконтроллера 12,from the first to sixteenth outputs of the
выход ЦАП 10 соединен со входом наушников 11,the output of the
с первого по пятый выходы клавиатуры 8 соединены с восемнадцатого по двадцать второй входами контроллера 3,from the first to fifth outputs of the
с первого по пятнадцатый выходы видеоконтроллера 12 соединены с первого по пятнадцатый входами дисплея 9.the first to fifteenth outputs of the
При произнесении речевой команды оператором осуществляется генерация звуковых колебаний, которые поступают на вход микрофона 1, где пьезоэлектрически осуществляется их преобразование в электрические сигналы.When a voice command is delivered by the operator, sound vibrations are generated, which are fed to the input of the
С выхода микрофона 1 электрические сигналы поступают на первый вход АЦП 2, где осуществляется их преобразование в цифровые последовательности шестнадцати разрядных двоичных кодов.From the output of the
Синхронизация работы АЦП 2, процессора 5, контроллера 3, ОЗУ 4, ЦАП 10, ДЗУ 7 осуществляется тактовым генератором 6. В соответствии с импульсами тактового генератора 6, поступающими на второй вход АЦП 2, со второго по семнадцатый выходов АЦП 2 при управлении контроллера 3 осуществляется передача цифровых последовательностей кодов на второй... семнадцатый входы - выходы ОЗУ 4 для их оперативного хранения и на второй... семнадцатый входы - выходы ДЗУ 7 для долгосрочного хранения.The synchronization of the
Для обучения системы распознаванию фонем создаются эталоны фонем. Для этого цифровые последовательности кодов, соответствующие произнесенным оператором речевым командам, передаются со второго по семнадцатый входов - выходов ОЗУ 4 на второй... семнадцатый входы - выходы процессора 5, где с помощью соответствующей программы осуществляется их преобразование к виду графической функции во времени, которая передается через видеоконтроллер 12 на дисплей 9.To train the phoneme recognition system, phoneme standards are created. For this, the digital code sequences corresponding to the speech commands spoken by the operator are transmitted from the second to the seventeenth inputs - the outputs of
Оператор, анализируя видеоинформацию, представленную на экране дисплея 9, соответствующую произнесенной команде, осуществляет ручную разметку, заключающуюся в установке границ фонемы в составе команды.The operator, analyzing the video information presented on the
При фиксировании границ фонем информация о номерах отсчетов поступает на восемнадцатый... двадцать второй входы контроллера 3 и через второй... семнадцатый входы - выходы контроллера 3 поступает на второй... семнадцатый входы - выходы процессора 5, где обрабатывается, после чего передается на второй... семнадцатый входы ЦАП 10, где осуществляется их преобразование в электрический сигнал, поступающий с выхода ЦАП 10 на вход наушников 11, где электрический сигнал преобразуется в звуковой сигнал.When fixing the boundaries of phonemes, information about the number of samples goes to the eighteenth ... twenty-second inputs of the
Оператор прослушивает с помощью наушников 11 звуковой сигнал, соответствующий выделенной фонеме, и вводит с помощью клавиатуры 8 состав команды и букву, соответствующие выделенной фонеме. Через контроллер 3 на второй... семнадцатый входы - выходы ОЗУ 4 поступают и накапливаются номера дискретных отсчетов начала и окончания фонем и соответствующие им буквенные коды, а также команды, в составе которых выделены границы фонем.The operator listens with a
Накопленная информация для долгосрочного хранения передается на второй... семнадцатый входы - выходы ДЗУ 7.The accumulated information for long-term storage is transmitted to the second ... seventeenth inputs - outputs of the
Для формирования эталонов фонем в процессоре 5 по программе производится выбор из ДЗУ 7 цифровых последовательностей кодов на основании информации о буквенном коде фонемы. Эта информация поступает на второй... семнадцатый входы - выходы процессора 5, где по программе с помощью алгоритма БПФ вычисляется массив значений модуля спектра.For the formation of phoneme standards in the
Используя массив значений модуля спектра как промежуточную операцию, в процессоре 5 вычисляется массив значений модуля биспектра, примеры графических изображений которого для фонем А, С, Б показаны на фиг.2, фиг.3, фиг.4, (см. способ изобретения), выделяют максимумы значений модуля биспектра (ММБ) и определяют их положения в частотной плоскости f1, f2, формируют эталоны фонем, которые представляют собой совокупные матрицы биспектральных признаков, и передаются со второго по семнадцатый входов - выходов процессора 5 для долговременного хранения на второй... семнадцатый входы - выходы ДЗУ 7.Using the array of values of the spectrum module as an intermediate operation, the
Информация об окончании формирования эталонов фонем поступает на первый... пятнадцатый входы дисплея 9.Information about the end of the formation of phoneme standards is received at the first ... fifteenth inputs of the
Оператор перед распознаванием фонем вводит с помощью клавиатуры 8 значение порога по вероятности наличия ММБ, которое, проходя через контроллер 3, поступает для хранения на второй... семнадцатый входы -выходы ОЗУ 4.Before recognition of phonemes, the operator enters using the
При распознавании фонем оператор с помощью клавиатуры 8 вводит команду, в составе которой необходимо распознать фонему. Эта информация поступает на восемнадцатый... двадцать второй входы контроллера 3 и далее на второй... семнадцатый входы - выходы ДЗУ 7, из которого извлекается графическая реализация выбранной команды, поступающая через видеоконтроллер 12 на первый... пятнадцатый входы дисплея 9.When recognizing phonemes, the operator uses the
Оператор по графической реализации речевой команды выбирает фонему, которую необходимо распознать, и вводит с помощью клавиатуры 8 ее буквенный код, который через контроллер 3 передается на второй... семнадцатый входы - выходы ОЗУ 4 для хранения. Цифровые последовательности кодов, соответствующие выбранной оператором фонеме, обрабатываются, включая процедуру распознавания, в процессоре 5 по программе (см. способ изобретения).The operator for the graphic implementation of the speech command selects the phoneme that needs to be recognized, and uses its
Буквенный код распознанной фонемы в процессоре 5 сравнивается с буквенным кодом распознаваемой фонемы, поступающим из ОЗУ 4, с целью оценки точности распознавания фонем. Буквенные коды распознаваемой и распознанной фонем, а также решение о точности распознавания передаются со второго по семнадцатый входов - выходов процессора 5 на первый... шестнадцатый входы видеоконтроллера 12, где преобразуются в видеосигнал, который с первого по пятнадцатый выходов видеоконтроллера 12 передается для отображения на первый... пятнадцатый входы дисплея 9.The letter code of the recognized phoneme in the
Для выполнения заявляемого устройства используются следующие стандартные элементы:To perform the inventive device uses the following standard elements:
микрофон 1 - совместимый по стандарту АС'97;microphone 1 - compatible according to AC'97 standard;
аналого-цифровой преобразователь (АЦП) 2 - реализован в виде микросхемы по стандарту АС'97, известен из [6,стр.50];analog-to-digital converter (ADC) 2 - implemented as a chip according to the AC'97 standard, known from [6, p. 50];
контроллер 3 - реализован в виде микросхемы EVA-X1630C фирмы "ADVANTECH", известен из [6,стр.49];controller 3 - implemented in the form of an EVA-X1630C microcircuit manufactured by ADVANTECH, known from [6, p. 49];
оперативное запоминающее устройство (ОЗУ) 4 - реализовано в виде микросхемы SDDIMM [6,стр.50];random access memory (RAM) 4 - is implemented as an SDDIMM chip [6, p. 50];
процессор 5 - стандартная микросхема INTEL CELERON 400 [6,стр.50];processor 5 - standard chip INTEL CELERON 400 [6, p. 50];
тактовый генератор 6 - входит в состав микросхемы контроллера 3;.clock generator 6 - is part of the
долговременное запоминающее устройство (ДЗУ) 7 - выполнено в стандарте Compact Flash, объем памяти не менее 64 Мбайт [6,стр.205];long-term storage device (DZU) 7 - made in the Compact Flash standard, the memory capacity is at least 64 MB [6, p. 205];
клавиатура 8 - совместимая по стандарту PS/2;Keyboard 8 - PS / 2 compatible
дисплей 9 - совместимый по стандарту SVGA;display 9 - compatible with the SVGA standard;
цифроаналоговый преобразователь (ЦАП) 10 - реализован в составе микросхемы по стандарту АС'97 [6, стр.50];digital-to-analog converter (DAC) 10 - implemented as part of a microchip according to the AC'97 standard [6, p. 50];
наушники 11 - совместимые по стандарту АС'97;earphones 11 - compatible by AC'97 standard;
видеоконтроллер 12 -микросхема SMI 721 [6, стр.51];video controller 12 - microchip SMI 721 [6, p. 51];
вычислительная система 13 - модуль SOM-ETX4400 в виде печатной платы [6, стр. 50].computing system 13 - the SOM-ETX4400 module in the form of a printed circuit board [6, p. 50].
Использование изобретения позволит повысить точность распознавания фонем речи.Using the invention will improve the accuracy of recognition of phonemes of speech.
Источники информацииInformation sources
1. Патент ЕВП №420825 кл. G 10 L 5/06, опубликован в 1991 г.1. EPP patent No. 420825 class. G 10
2. Патент RU №2184399 кл. G 10 L 15/00//G 10 L 101:02, опубликован в 2002 г.2. Patent RU No. 2184399 class. G 10 L 15/00 // G 10 L 101: 02, published in 2002
3. Патент US №4852170 кл. 381/41, опубликован в 1989 г.3. US patent No. 4852170 class. 381/41, published in 1989
4. Ломанн А.В., Вирнитцер Б.В. Корреляционная функция третьего порядка// ТИИЭР, 1984, Т.72, №7.4. Lohmann A.V., Wirnitzer B.V. The correlation function of the third order // TIIER, 1984, T. 72, No. 7.
5. В.В.Латышев, И.С.Рыжак. Применение моментов, кумулянтов и спектров высоких порядков в современных методах обработки сигналов. - М.: МАИ. 1998.5. V.V. Latyshev, I. S. Ryzhak. Application of moments, cumulants and high-order spectra in modern signal processing methods. - M .: MAI. 1998.
6. ProSoft 9.0. Краткий каталог продукции 2003/2004.6. ProSoft 9.0. Short product catalog 2003/2004.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004109253/09A RU2268504C9 (en) | 2004-03-30 | 2004-03-30 | Method for recognition of speech patterns and device for realization of method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004109253/09A RU2268504C9 (en) | 2004-03-30 | 2004-03-30 | Method for recognition of speech patterns and device for realization of method |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2004109253A RU2004109253A (en) | 2005-10-10 |
RU2268504C1 RU2268504C1 (en) | 2006-01-20 |
RU2268504C9 true RU2268504C9 (en) | 2006-06-27 |
Family
ID=35850718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004109253/09A RU2268504C9 (en) | 2004-03-30 | 2004-03-30 | Method for recognition of speech patterns and device for realization of method |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2268504C9 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2597498C1 (en) * | 2015-03-31 | 2016-09-10 | Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук | Speech recognition method based on two-level morphophonemic prefix graph |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2466468C1 (en) * | 2011-06-30 | 2012-11-10 | Даниил Александрович Кочаров | System and method of speech recognition |
RU2553413C2 (en) * | 2012-08-29 | 2015-06-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") | Method of detecting emotional state of person from voice |
-
2004
- 2004-03-30 RU RU2004109253/09A patent/RU2268504C9/en not_active IP Right Cessation
Non-Patent Citations (1)
Title |
---|
Программа пофонемного распознавания - RecHMM. Audi Tech. Inc. Санкт-Петербург, 1999, найдено на http://www.auditech.ru. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2597498C1 (en) * | 2015-03-31 | 2016-09-10 | Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук | Speech recognition method based on two-level morphophonemic prefix graph |
Also Published As
Publication number | Publication date |
---|---|
RU2004109253A (en) | 2005-10-10 |
RU2268504C1 (en) | 2006-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597496B (en) | Voice generation method and device based on generation type countermeasure network | |
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
CN108182937B (en) | Keyword recognition method, device, equipment and storage medium | |
EP0178509B1 (en) | Dictionary learning system for speech recognition | |
CN102208186B (en) | Chinese phonetic recognition method | |
CN1167045C (en) | Speech recongition method and device | |
RU2466468C1 (en) | System and method of speech recognition | |
CN1013525B (en) | Real-time phonetic recognition method and device with or without function of identifying a person | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
CN1991976A (en) | Phoneme based voice recognition method and system | |
CN1160450A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
JP2001166789A (en) | Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end | |
He et al. | Stress detection using speech spectrograms and sigma-pi neuron units | |
CN105916090A (en) | Hearing aid system based on intelligent speech recognition technology | |
CN104157288A (en) | Speech recognition with a plurality of microphones | |
RU2268504C1 (en) | Method for recognition of speech patterns and device for realization of method | |
CN113223492A (en) | Voice broadcasting system | |
RU2296376C2 (en) | Method for recognizing spoken words | |
Mishra et al. | Real time emotion detection from speech using Raspberry Pi 3 | |
Kanisha et al. | Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization | |
RU80000U1 (en) | DEVICE FOR PHONETIC SPEECH ANALYSIS | |
CN101246686A (en) | Method and device for identifying analog national language single tone by continuous quadratic Bayes classification method | |
CN113658599A (en) | Conference record generation method, device, equipment and medium based on voice recognition | |
JP6003352B2 (en) | Data generation apparatus and data generation method | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TH4A | Reissue of patent specification | ||
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20090331 |