RU2597498C1 - Speech recognition method based on two-level morphophonemic prefix graph - Google Patents

Speech recognition method based on two-level morphophonemic prefix graph Download PDF

Info

Publication number
RU2597498C1
RU2597498C1 RU2015111718/08A RU2015111718A RU2597498C1 RU 2597498 C1 RU2597498 C1 RU 2597498C1 RU 2015111718/08 A RU2015111718/08 A RU 2015111718/08A RU 2015111718 A RU2015111718 A RU 2015111718A RU 2597498 C1 RU2597498 C1 RU 2597498C1
Authority
RU
Russia
Prior art keywords
recognition
speech signal
speech
hypothesis
phoneme
Prior art date
Application number
RU2015111718/08A
Other languages
Russian (ru)
Inventor
Андрей Леонидович Ронжин
Алексей Анатольевич Карпов
Original Assignee
Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук filed Critical Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Priority to RU2015111718/08A priority Critical patent/RU2597498C1/en
Application granted granted Critical
Publication of RU2597498C1 publication Critical patent/RU2597498C1/en

Links

Images

Abstract

FIELD: electronics.
SUBSTANCE: invention relates to speech recognition. Speech recognition method comprises steps of: receiving a speech signal, processing speech signal, selecting, in normalised spectrum, pauses, noise and sound signals, identifying and converting speech signal, determining presence/absence therein of acoustic features of speech signal, determining probability of all phoneme conditions, processing recognition hypothesis, comparing parameters of recognition hypothesis, syntactical matching of hypothesis, generating recognition result, converting recognition results of all segments of speech signal, outputting speech signal in form of connected text.
EFFECT: technical result is reducing amount of memory elements, needed to store a preset dictionary, and reduced complexity of computer recognition process.
1 cl, 5 dwg, 2 tbl

Description

Изобретение относится к области распознавания речи, т.е. к способам перевода акустического сигнала, содержащего речь, в текст, состоящий из слов, входящих в лексический и произносительный словари системы распознавания речи.The invention relates to the field of speech recognition, i.e. to methods for translating an acoustic signal containing speech into text consisting of words included in the lexical and pronunciation dictionaries of a speech recognition system.

Заявленное изобретение позволяет распознавать слитную непрерывную речь вне зависимости от индивидуальных особенностей говорящего на основе определения групп фонем по характеризующим их признакам и методе последовательного декодирования последовательностей символов, обозначающих группы фонем, на основе двухуровнего морфофонемного префиксного графа (ДМПГ) в цепочку слов, составляющих высказывание (текст).The claimed invention allows to recognize continuous continuous speech, regardless of the individual characteristics of the speaker, based on the definition of phoneme groups according to their characteristics and the method of sequential decoding of sequences of characters denoting phoneme groups, based on a two-level morphophonemic prefix graph (DMPG) in a chain of words that make up a sentence (text )

Известен способ дикторонезависимого распознавания звуков речи (патент на изобретение РФ 2234746 от 30.10.2002), включающий в себя предварительную сегментацию речевого сигнала для определения временной длительности звуковых сегментов, определение периодичности каждого сегмента акустических составляющих речевого сигнала для соотнесения звукового сегмента по способу его образования к голосовому, шумному или шумно-голосовому виду звуков речи, определение амплитуды и частоты каждой из первых трех формант в спектре звукового сегмента в качестве информативных признаков звуков речи, интеграцию упомянутых информативных признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путем сопоставления интегральных значений его информативных признаков с имеющимся банком данных отдельно для каждого вида звуков речи, принятие решения относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения. Основную сегментацию речевого сигнала выполняют по трем основным режимам в зависимости от ранее найденного вида звукового сегмента, при упомянутом фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента как для каждого упомянутого вида звуков речи, так и для каждого типа в зависимости от числа формант в звуковом сегменте, затем устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают упомянутое решение относительно распознаваемого звука речи. К числу недостатков данного решения следует отнести низкую различительную способность и скорость распознавания речи по формантам, поступательный характер распознавания, обуславливающие последовательное распознавание каждой форманты, а также необходимость обращаться в процессе распознавания к словарям и эталонным образцам.A known method of speaker-independent recognition of speech sounds (patent for the invention of the Russian Federation 2234746 from 10.30.2002), which includes preliminary segmentation of the speech signal to determine the time duration of the audio segments, determining the periodicity of each segment of the acoustic components of the speech signal to correlate the audio segment by the way it is formed to voice , noisy or noisy-vocal form of speech sounds, determining the amplitude and frequency of each of the first three formants in the spectrum of the sound segment as informative features of speech sounds, integration of the mentioned informative features for each sound segment, phonemic recognition of each sound segment by comparing the integral values of its informative features with the existing data bank separately for each type of speech sounds, making a decision regarding the recognizable speech sound and presenting it in the form of alphabetic or transcriptional notation. The main segmentation of the speech signal is performed according to three main modes depending on the previously found type of sound segment, with the mentioned phonemic recognition, the integrated values of the informative features of each sound segment are compared both for each mentioned type of speech sounds and for each type depending on the number of formants in the sound segment, then set the temporal boundaries of speech sounds depending on changes in the phonemic affiliation of the audio segment, after which they take the decision statement regarding the recognizable sound of speech. The disadvantages of this solution include the low discriminating ability and speed of speech recognition by formants, the progressive nature of recognition, which determine the consistent recognition of each formant, as well as the need to use dictionaries and reference samples in the recognition process.

Известен способ распознавания слов в слитной речи (патент на изобретение РФ 2297676 от 30.03.2005), состоящий в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке. При этом проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, а восстанавливают рабочую гипотезу из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования. Несмотря на то, что в данном способе различительная способность выше, чем в предыдущем способе, однако, аналогично с предыдущим известным способом распознавания речи к числу недостатков данного метода следует также отнести длительность процесса распознавания, обусловленного необходимостью обращения к эталонным образцам, а также поочередным распознаванием каждой форманты в слове.A known method of recognizing words in continuous speech (patent for the invention of the Russian Federation 2297676 dated 03.30.2005), consisting in the fact that with the utterance of the speech utterance, samples of the acoustic signal of this utterance digitized at a given quantization frequency are periodically taken at fixed time intervals and all of these the samples calculate the functional that determines the current acoustic state, while the resulting sequence of current acoustic states is used to restore the sequence of words (working hypotheses) uttered in the original speech utterance, for which a lexical decoding network is used, which sets the patterns for following reference acoustic states in a language. In this case, a search for a working hypothesis is carried out, which is optimal in the sense of the maximum degree of its coincidence with the original speech signal, which is ensured by the use of the moving marker algorithm, and the working hypothesis is restored from the marker, which at this point in time is at the end vertex of the lexical decoding network. Despite the fact that in this method the distinguishing ability is higher than in the previous method, however, similarly to the previous known method of speech recognition, the number of disadvantages of this method should also include the duration of the recognition process, due to the need to access the reference samples, as well as alternating recognition of each formants in the word.

Известны также способ и система распознавания речи, построенные с использованием методов фонемного анализа (патент США №5315689, 1995), в котором применяется двухуровневая обработка речевого сигнала. Блок первого уровня осуществляет распознавание слова (команды) как звукового (слухового) образа в целом. Альтернативный блок второго уровня производит фонемное распознавание звукового сигнала. Недостатком этого способа является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема речевого фрагмента и распознавании слитной речи.There is also known a method and a speech recognition system constructed using phoneme analysis methods (US patent No. 5315689, 1995), which uses two-level processing of a speech signal. The first level block recognizes a word (command) as a sound (auditory) image as a whole. An alternative block of the second level produces phonemic recognition of the audio signal. The disadvantage of this method is the reduction in the likelihood of correct recognition of words (phrases) with an increase in the volume of a speech fragment and recognition of continuous speech.

Известен также способ распознавания речи (заявка на изобретение США US 2010332231 А1 от 01.06.2010), заключающийся в том, что из слитной речи на первом этапе определяют последовательность фонем, подлежащих распознаванию, которые затем сравнивают с хранящимся в памяти устройства списком слов, соответствующих отобранным фонемам, при этом далее осуществляют вероятностную оценку, по установленным ранее критериям на основании которой выбирают из ранее сформированного слова наиболее вероятные, а незнакомое слово вносят в словарь и определяют критерии для последующей вероятностной оценки. К числу недостатков данного способа можно отнести его чрезмерную сложность и высокие требования к ресурсам памяти устройства, осуществляющего распознавание речи в соответствии с данным способом, кроме того, решение не позволяет осуществлять распознавание слитной речи, так как распознавание идет слишком медленно и с достаточной степенью точности возможно лишь определение отдельных речевых команд, а не слитной речи.There is also a method of speech recognition (application for US invention US 2010332231 A1 dated 06/01/2010), which consists in the fact that from a single speech at the first stage a sequence of phonemes to be recognized is determined, which are then compared with a list of words stored in the device’s memory corresponding to the selected phonemes, in this case, a probabilistic assessment is further carried out, according to previously established criteria, on the basis of which the most probable words are selected from the previously generated word, and the unfamiliar word is entered into the dictionary and criteria for For the subsequent probabilistic assessment. The disadvantages of this method include its excessive complexity and high requirements on the memory resources of a device that performs speech recognition in accordance with this method, in addition, the solution does not allow recognition of continuous speech, since recognition is too slow and with a sufficient degree of accuracy, it is possible only the definition of individual speech commands, and not continuous speech.

Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ распознавания речи (патент RU 2 466 468 от 10.11.2012), включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря, при этом на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, и осуществляют сравнение определенных комбинаторных наборов акустических признаков сегмента с предустановленными параметрами групп фонем, с одновременным формированием последовательности символов, обозначающих группы фонем, соответствующие комбинаторным наборам акустических признаков каждого сегмента, преобразование которой в связный текст осуществляют последовательным декодированием комбинаторного сочетания символов групп фонем последовательности на основе словаря, размеченного по символам групп фонем.The closest in technical essence to the claimed method and selected as a prototype is a speech recognition method (patent RU 2 466 468 from 10.11.2012), which includes sequentially executed steps for receiving a speech signal at the input of a receiving unit; processing the speech signal by the information processing unit, including its processing by an analog-to-digital converter with a pre-set sampling frequency and segmentation, spectral analysis of the speech signal segments and normalization of the spectrum at high frequencies; highlighting in the normalized spectrum of pauses, noises and sound signals with its subsequent recognition and conversion into text using a predefined dictionary, and at the stage of recognition, based on the initial speech signal and normalized spectrum, the presence / absence of acoustic features of the speech signal in each segment is determined, combinatorial sets which characterize groups of phonemes, the parameters of which are predefined in the memory unit, and compare certain combinatorial sets of acoustic their attributes of a segment with predefined parameters of phoneme groups, with the simultaneous formation of a sequence of characters denoting phoneme groups corresponding to combinatorial sets of acoustic features of each segment, the conversion of which into a connected text is carried out by sequential decoding of the combinatorial combination of characters of phoneme groups of a sequence based on a dictionary marked up by the symbols of phoneme groups .

Способу-прототипу присущи следующие недостатки:The prototype method has the following disadvantages:

1) анализируются только префиксы словоформ (сочетаний групп фонем), тогда как для русского языка с относительно высоким уровнем флективности этого недостаточно, поскольку вариативность окончаний очень велика для большинства слов. В среднем наличие нескольких десятков различных окончаний у одного и того же слова приводит к существенному увеличению размера словаря (требуемого объема элементов памяти);1) only the prefixes of word forms (combinations of phoneme groups) are analyzed, while for the Russian language with a relatively high level of inflectivity this is not enough, since the variability of endings is very large for most words. On average, the presence of several dozen different endings in the same word leads to a significant increase in the size of the dictionary (the required amount of memory elements);

2) существенная вычислительная сложность метода последовательного декодирования последовательностей символов, обозначающих группы фонем, использующем произносительный словарь, состоящий из списка слов и соответствующих им транскрипций, размеченных в символах групп фонем;2) the significant computational complexity of the method of sequential decoding of sequences of characters denoting phoneme groups using a pronunciation dictionary consisting of a list of words and their corresponding transcriptions marked up in the characters of phoneme groups;

3) необходимость использования больших текстовых корпусов для обучения предустановленного словаря.3) the need to use large text corps for learning a predefined dictionary.

Для компактного представления словаря транскрипций флективных языков признано эффективным разложение словоформы на сублексические единицы, так как это позволяет сократить размер словаря системы распознавания и, соответственно, повысить скорость декодирования речевого сигнала [Kurimo М., Creutz М., Varjokallio М., Arisoy Е., Saraclar М. Unsupervised segmentation of words into morphemes - Morpho challenge 2005 application to automatic speech recognition // Proc. Interspeech 2006. Pittsburgh, USA, 2006. - pp. 1021-1024]. Разложение на основе статистических моделей позволяет сильнее сократить размер словаря, но увеличивает риск возникновения грамматически некорректных последовательностей сублексических единиц, которые, тем не менее, с акустической точки зрения являются наиболее правдоподобными [Kneissler J., Klakow D. Speech recognition for huge vocabularies by using optimized subword units // Proc. Eurospeech 2001. Aalborg, Denmark, 2001. - pp. 69-72].For compact presentation of the dictionary of transcriptions of inflectional languages, decomposition of the word form into sublexic units is recognized to be effective, as this allows to reduce the size of the dictionary of the recognition system and, accordingly, increase the decoding speed of the speech signal [Kurimo M., Creutz M., Varjokallio M., Arisoy E., Saraclar M. Unsupervised segmentation of words into morphemes - Morpho challenge 2005 application to automatic speech recognition // Proc. Interspeech 2006. Pittsburgh, USA, 2006. - pp. 1021-1024]. Decomposition based on statistical models makes it possible to reduce the dictionary size more, but increases the risk of grammatically incorrect sequences of sublexic units, which, nevertheless, are most likely from the acoustic point of view [Kneissler J., Klakow D. Speech recognition for huge vocabularies by using optimized subword units // Proc. Eurospeech 2001. Aalborg, Denmark, 2001. - pp. 69-72].

Классической моделью словаря (слов или морфов) является структура, представляющая собой список всех словоформ и их транскрипций (фиг. 1, а). Транскрипция каждого слова представляет собой цепочку составляющих ее фонем. Модель фонемы обычно строится на основе скрытых моделей Маркова (СММ) и лево-правой модели Бэкиса. Более точное распознавание фонем достигается путем учета фонетического контекста и построения моделей Трифонов, а также применения смесей гауссовских плотностей распределения вероятностей векторов наблюдений в состояниях фонем.The classical model of a dictionary (words or morphs) is a structure that is a list of all word forms and their transcriptions (Fig. 1, a). The transcription of each word is a chain of phonemes making up it. The phoneme model is usually built on the basis of hidden Markov models (SMM) and the left-right Beckis model. More accurate recognition of phonemes is achieved by taking into account the phonetic context and constructing Trifon models, as well as using mixtures of Gaussian density distributions of the probability of observation vectors in phoneme states.

С помощью СММ обеспечивается объединение моделей фонем, слов, фраз в единую структуру графа, обеспечивающего поиск лучшей гипотезы распознавания. При проектировании системы распознавания речи в зависимости от размера словаря и типа модели языка, которая используется при построении моделей фраз, меняется в основном структура (lattice) графа. Поэтому методы параметрического представления речи, методы оценки вероятности состояний, фонем, фраз остаются практически неизменными, а производится наполнение и оптимизация графа словаря декодера.With the help of SMM, the combination of phoneme models, words, phrases into a single graph structure is provided, which provides a search for the best recognition hypothesis. When designing a speech recognition system, depending on the size of the dictionary and the type of language model used to build the phrase models, the structure (lattice) of the graph changes mainly. Therefore, methods for the parametric presentation of speech, methods for assessing the probability of states, phonemes, phrases remain almost unchanged, and the graph of the decoder dictionary is filled and optimized.

С увеличением размера словаря появляются слова с одинаковыми начальными участками, соответственно их транскрипции будут иметь одинаковые начальные фонемы. Объединяя начальные участки транскрипций, словарь преобразуется в лексикофонетическое дерево (фиг. 1, б), за счет чего достигается значительное сокращение объема памяти [Ortmanns, S., Eiden, А., Ney, Н. Improved Lexical Tree Search for Large Vocabulary Recognition. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Seattle, WA, 1998. - pp. 817-820]. Прохождение по дереву позволяет синтезировать все возможные слова из словаря. Существующие методы распознавания на основе префиксного лексико-фонетического дерева успешно применяются для английского и других языков [Prazak A., Psutka J., Hoidekr J., Kanis J., Muller L., Psutka, J. Adaptive language model in automatic online subtitling // Proc. 2nd IASTED International Conference on Computational Intelligence CI 2006. San Francisco, California, USA, 2006. - pp. 479-483].With the increase in the size of the dictionary, words with the same initial sections appear; accordingly, their transcriptions will have the same initial phonemes. Combining the initial sections of transcriptions, the dictionary is converted into a lexicophonetic tree (Fig. 1, b), due to which a significant reduction in memory is achieved [Ortmanns, S., Eiden, A., Ney, N. Improved Lexical Tree Search for Large Vocabulary Recognition. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Seattle, WA, 1998 .-- pp. 817-820]. Walking through a tree allows you to synthesize all possible words from a dictionary. Existing recognition methods based on the prefix lexicon-phonetic tree are successfully used for English and other languages [Prazak A., Psutka J., Hoidekr J., Kanis J., Muller L., Psutka, J. Adaptive language model in automatic online subtitling / / Proc. 2nd IASTED International Conference on Computational Intelligence CI 2006. San Francisco, California, USA, 2006. - pp. 479-483].

Для компактного представления словаря транскрипций предлагается использовать декомпозирование словоформы на основу и концовку при помощи морфоанализатора [Леонтьева Ан.Б. Модуль морфофонетической обработки слов для построения словаря распознавателя русской слитной речи. Научно-теоретический журнал «Искусственный интеллект», №3. - Донецк, Украина, 2007. - С. 319-327], построенного на базе правил словообразования и словоизменения, что позволяет хранить словарь в виде префиксного дерева основ и автоматически генерировать произвольную словоформу [Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А.? Леонтьева Ал.Б. Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи // Труды СПИИРАН. Вып. 4, т. 1. - СПб.: Наука, 2007. - С. 388-404; Ронжин А.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий, №9, 2008. - С. 12-19].For a compact presentation of the transcription dictionary, it is proposed to use the decomposition of the word form into the base and ending with the help of a morphoanalyzer [Leontyev An.B. Morphophonetic word processing module for building a dictionary of recognizer of Russian continuous speech. Scientific and theoretical journal "Artificial Intelligence", No. 3. - Donetsk, Ukraine, 2007. - P. 319-327], built on the basis of word formation and inflection rules, which allows you to store the dictionary in the form of a prefix base tree and automatically generate an arbitrary word form [Ronzhin A.L., Leontyeva An.B., Kagirov I.A. ? Leontyeva Al.B. Two-level morphophonemic prefix graph for decoding Russian continuous speech // Transactions of SPIIRAS. Vol. 4, vol. 1. - SPb .: Nauka, 2007. - S. 388-404; Ronzhin A.L. Topological features of the morphophonemic way of presenting a dictionary for the recognition of Russian speech // Bulletin of computer and information technologies, No. 9, 2008. - P. 12-19].

Полученное лексическое префиксное дерево имеет двухуровневую структуру, где первый уровень представляет собой граф основ, а второй - список концовок (элементы, следующие за основой, могут состоять из словообразовательных и словоизменительных суффиксов, окончания и постфикса). Данный ДМПГ наиболее компактно описывает все используемые словоформы и их транскрипции (фиг. 1, в). Генерация ДМПГ производится по списку транскрибированных словоформ, и поэтому полученный граф способен генерировать только грамматически правильные слова. Для использования данного графа в способе распознавания слитной речи вводится обратная связь, обеспечивающая генерацию последовательности словоформ с неограниченной длиной. Строго говоря, число слов в последовательности будет зависеть от длины записанного речевого сигнала и при поступлении последней фонемы, гипотеза распознанной фразы (путь по графу) заканчивается последним начатым словом.The resulting lexical prefix tree has a two-level structure, where the first level is a graph of bases, and the second is a list of endings (elements following the basis can consist of word-building and inflectional suffixes, endings and postfixes). This DMPG most compactly describes all used word forms and their transcriptions (Fig. 1, c). DMPG is generated according to the list of transcribed word forms, and therefore the resulting graph is able to generate only grammatically correct words. To use this graph in the method of recognition of continuous speech, feedback is introduced, which ensures the generation of a sequence of word forms with unlimited length. Strictly speaking, the number of words in the sequence will depend on the length of the recorded speech signal and when the last phoneme arrives, the hypothesis of the recognized phrase (the path along the graph) ends with the last word started.

Задачей изобретения является разработка способа распознавания речи на основе двухуровневого морфофонемного, префиксного графа, позволяющего сократить объем элементов памяти, необходимый для хранения предустановленного словаря, и снизить вычислительную сложность процесса распознавания.The objective of the invention is to develop a method for speech recognition based on a two-level morphophonemic, prefix graph, which allows to reduce the amount of memory elements needed to store a predefined dictionary and reduce the computational complexity of the recognition process.

В заявленном способе эта задача решается тем, что в способе распознавания речи на основе двухуровневого морфофонемного префиксного графа, включающем последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря, при этом на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, дополнительно после этого определяют вероятности всех состояний фонем по отношению к текущему сегменту. Затем обрабатывают гипотезы распознавания с использованием предустановленного словаря на базе двухуровневого мор-фофонетического префиксного графа и осуществляют сравнение параметров гипотез распознавания с целью их упорядочивания. Осуществляют синтаксическое согласование гипотез, содержащих две и более основ, после чего формируют результат распознавания на основе комплексной оценки гипотезы фразы. Затем преобразуют результаты распознавания всех сегментов речевого сигнала в связный текст и выводят его с помощью устройств вывода.In the claimed method, this problem is solved in that in a speech recognition method based on a two-level morphophonemic prefix graph that includes sequentially executed steps for receiving a speech signal at the input of a reception unit; processing the speech signal by the information processing unit, including its processing by an analog-to-digital converter with a pre-set sampling frequency and segmentation, spectral analysis of the speech signal segments and normalization of the spectrum at high frequencies; highlighting in the normalized spectrum of pauses, noises and sound signals with its subsequent recognition and conversion into text using a predefined dictionary, and at the stage of recognition, based on the initial speech signal and normalized spectrum, the presence / absence of acoustic features of the speech signal in each segment is determined, combinatorial sets which characterize groups of phonemes, the parameters of which are predefined in the memory block, additionally after that the probabilities of all phoneme states are determined on to the current segment. Then, recognition hypotheses are processed using a predefined dictionary based on a two-level morphophonetic prefix graph, and the parameters of recognition hypotheses are compared in order to organize them. Syntax matching of hypotheses containing two or more bases is carried out, after which a recognition result is formed on the basis of a comprehensive assessment of the phrase hypothesis. Then, the recognition results of all segments of the speech signal are converted into coherent text and output it using output devices.

Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет:A new set of essential features allows you to achieve the specified technical result due to:

- выделения двух этапов обработки и соответственно двух уровней представления: лексического дерева основ (неизменяемой части слова) и списка уникальных грамматических концовок (изменяемой части в зависимости от грамматических показателей: род, число, падеж, склонение, вид и др.), позволяющих сократить размер предустановленного словаря и, соответственно, повысить скорость декодирования речевого сигнала;- the allocation of two stages of processing and, accordingly, two levels of presentation: the lexical tree of the basics (unchanging part of the word) and the list of unique grammatical endings (the variable part depending on the grammatical indicators: gender, number, case, declension, type, etc.), allowing to reduce the size a predefined dictionary and, accordingly, increase the decoding speed of the speech signal;

- использования грамматических правил русского языка при декомпозиции словоформы на основу и концовку, а также сохранения связей между основой и соответствующими концовками, обеспечивающих формирование только корректных словоформ при прохождении по двухуровневому графу в процессе обработки гипотезы распознавания.- the use of grammatical rules of the Russian language when decomposing a word form into a base and ending, as well as maintaining the connections between the base and the corresponding endings, ensuring the formation of only correct word forms when passing through a two-level graph in the process of processing the recognition hypothesis.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа распознавания речи на основе двухуровневого морфофонемного префиксного графа, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».The analysis of the prior art made it possible to establish that there are no analogues that are characterized by a set of features identical to all the features of the claimed method of speech recognition based on a two-level morphophonemic prefix graph. Therefore, the claimed invention meets the condition of patentability "novelty."

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided for by the essential features of the claimed invention, the transformations to achieve the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".

Заявленное изобретение поясняется следующими чертежами:The claimed invention is illustrated by the following drawings:

- фиг. 1, отображающей способы представления словаря для распознавания слитной речи;- FIG. 1, showing methods for presenting a dictionary for recognizing continuous speech;

- фиг. 2, на которой представлена блок-схема последовательности действий, реализующих предлагаемый способ;- FIG. 2, which shows a block diagram of a sequence of actions that implement the proposed method;

- фиг. 3, на которой представлен алгоритм генерации ДМПГ по списку транскрибированных словоформ;- FIG. 3, which shows the algorithm for generating DMPG according to the list of transcribed word forms;

- фиг. 4, отображающей сущность синтаксического согласования;- FIG. 4, depicting the essence of syntax matching;

- фиг. 5, на которой приведены результаты сравнения моделей предустановленного словаря: а - по числу узлов фонем; б - по числу концевых узлов; в - по суммарному числу узлов и дуг; г - по плотности графа.- FIG. 5, which shows the results of comparing models of a predefined dictionary: a - by the number of phoneme nodes; b - by the number of end nodes; in - by the total number of nodes and arcs; g - according to the density of the graph.

Реализация заявленного способа заключается в следующем (фиг. 2).The implementation of the claimed method is as follows (Fig. 2).

Речевой сигнал в виде звукового потока данных принимают (блок 201) и осуществляют его преобразование в цифровой вид (блок 202). Полученный цифровой речевой сигнал сегментируют при обработке короткими окнами одинаковой длины и со смещением в два раза меньше длины (блок 203), что позволяет выявлять как плавные переходы от одного звука в потоке речи к другому, так и кратковременные характерные явления внутри звуков речи, например, взрывы смычных согласных. Окна обработки выбирают по длине таким образом, чтобы получить наиболее оптимальные и сглаженные признаки групп фонем по времени их звучания в потоке речи. Эмпирически установлено, что длина окон в 25 мс дает оптимальный результат.The speech signal in the form of an audio data stream is received (block 201) and is converted into a digital form (block 202). The resulting digital speech signal is segmented during processing with short windows of the same length and with an offset of half the length (block 203), which allows one to detect smooth transitions from one sound in a speech stream to another, as well as short-term characteristic phenomena inside speech sounds, for example, explosions of consonant consonants. Processing windows are selected in length so as to obtain the most optimal and smoothed features of phoneme groups by the time they sound in the speech stream. It is empirically established that a window length of 25 ms gives an optimal result.

Акустические признаки речевого сигнала, характерные для групп фонем, используемых в качестве базовых элементов для распознавания, определяют в рамках каждого окна (сегмента речевого сигнала) параллельно и одномоментно программно-аппаратным образом, При этом часть акустических признаков определяют напрямую из осциллограммы речевого сигнала, полученной от аналого-цифрового преобразователя* а часть - из спектра речевого сигнала, получаемого при спектральном анализе сегментов речевого сигнала и нормализации при помощи быстрого преобразования Фурье (блок 204). Полученный спектр нормализуется на высоких частотах в соответствии с нелинейным восприятием разных частот человеческой слуховой системой, что позволяет компенсировать более низкую интенсивность высоких частот по сравнению с низкими частотами в речевом сигнале.The acoustic features of the speech signal characteristic of phoneme groups used as basic elements for recognition are determined within each window (segment of the speech signal) in parallel and simultaneously in hardware and software, while some of the acoustic features are determined directly from the waveform of the speech signal received from analog-to-digital converter * and part from the spectrum of the speech signal obtained by spectral analysis of segments of the speech signal and normalization using a quick conversion Fourier analysis (block 204). The resulting spectrum is normalized at high frequencies in accordance with the nonlinear perception of different frequencies by the human auditory system, which allows you to compensate for the lower intensity of high frequencies compared to low frequencies in the speech signal.

Как указано выше, для определения акустических признаков речевого сигнала в каждом окне используют как исходный речевой сигнал, так и нормализованный спектр. На основе комбинаций значений акустических признаков определяется группа фонем, к которой относится речевой сигнал в рамках текущего окна обработки (блок 205). Так, например, при классификации групп фонем может быть использован следующий набор акустических признаков: наличие/отсутствие основного тона, наличие/отсутствие широкополосных шумов, наличие/отсутствие перепада интенсивности речевого сигнала, наличие/отсутствие высокочастотных шумов, наличие/отсутствие сонорности, акустический признак присутствия/отсутствия гласного, акустический признак ряда гласного.As indicated above, to determine the acoustic characteristics of a speech signal in each window, both the original speech signal and the normalized spectrum are used. Based on combinations of values of acoustic features, a group of phonemes is determined to which the speech signal belongs within the current processing window (block 205). For example, when classifying phoneme groups, the following set of acoustic features can be used: presence / absence of the fundamental tone, presence / absence of broadband noise, presence / absence of a difference in the intensity of the speech signal, presence / absence of high-frequency noise, presence / absence of sonority, acoustic sign of presence / absence of a vowel, an acoustic sign of a vowel series.

Одной из важнейших акустических характеристик является наличие основного тона в речевом сигнале. Отсутствие основного тона в сигнале свидетельствует о том, что в данный момент времени либо произносится глухой согласный, либо присутствует перерыв в речи (пауза). Присутствие основного тона определяют по высокой интенсивности частотных составляющих в низкочастотной области в диапазоне возможных значений частоты основного тона. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длиной около 5 секунд. Если в речевом сигнале в рамках предыдущего окна обработки было определено отсутствие основного тона и широкополосных шумов, а в речевом сигнале в текущем окне был определен один из других признаков, то данное окно дополнительно проверяется на наличие в нем широкополосных шумов, что является признаком, характеризующим группу смычные глухие шумные согласные или смычные звонкие шумные согласные.One of the most important acoustic characteristics is the presence of the fundamental tone in the speech signal. The absence of the fundamental tone in the signal indicates that at the given moment either a dull consonant is pronounced or there is a break in speech (pause). The presence of the fundamental tone is determined by the high intensity of the frequency components in the low frequency region in the range of possible values of the frequency of the fundamental tone. The intensity of the frequency components in the current window determines their relative maximum intensity in the speech signal over a relatively long segment of the speech signal with a length of about 5 seconds. If the speech signal within the previous processing window detected the absence of the fundamental tone and broadband noise, and one of the other signs was determined in the speech signal in the current window, then this window is additionally checked for the presence of broadband noise in it, which is a characteristic of the group phonetic deaf noisy consonants or phonetic voiced noisy consonants.

Кратковременные перепады интенсивности речевого сигнала, свидетельствующие о присутствии в сигнале коротких смычек, характерных для дрожащих сонантов, определяют по соотношению интенсивности речевого сигнала в трех последовательно идущих окнах обработки. Интенсивность речевого сигнала в среднем окне существенно ниже интенсивности речевого сигнала в правом и левом окнах, в то время как интенсивность речевого сигнала в правом и левом окнах практически одинакова.Short-term differences in the intensity of the speech signal, indicating the presence of short bows in the signal, characteristic of trembling sonants, are determined by the ratio of the intensity of the speech signal in three consecutive processing windows. The intensity of the speech signal in the middle window is significantly lower than the intensity of the speech signal in the right and left windows, while the intensity of the speech signal in the right and left windows is almost the same.

Наличие широкополосных шумов в речевом сигнале, связанных с произношением щелевых согласных или присутствием взрыва, происходящего во время размыкания смычки при произнесении смычных согласных, определяют по наличию интенсивных частотных составляющих в диапазоне выше возможных значений частоты основного тона и ее первой гармоники. Интенсивность частотных составляющих в текущем окне определяют относительного их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длиной около 5 секунд.The presence of broadband noise in a speech signal associated with the pronunciation of slotted consonants or the presence of an explosion occurring during opening the bow when pronouncing the consonant consonants is determined by the presence of intense frequency components in the range above the possible values of the fundamental frequency and its first harmonic. The intensity of the frequency components in the current window determines their relative maximum intensity in the speech signal over a relatively long segment of the speech signal with a length of about 5 seconds.

Наличие высокочастотных шумов в речевом сигнале, связанных с произношением щелевых сибилянтов, определяют в диапазоне выше возможных значений частоты основного тона и ее первой гармоники, по отношению интенсивности частотных составляющих в области средних частот и интенсивности частотных составляющих в области высоких частот. Интенсивность высокочастотных шумов существенно превосходит интенсивность средних частот в случае произнесения щелевых сибилянтов.The presence of high-frequency noise in a speech signal associated with the pronunciation of slotted sibilants is determined in the range above the possible values of the frequency of the fundamental tone and its first harmonic, in relation to the intensity of the frequency components in the middle frequency region and the intensity of the frequency components in the high frequency region. The intensity of high-frequency noise significantly exceeds the intensity of medium frequencies in the case of pronouncing slotted sibilants.

Сонорность речевого сигнала, характерную для произнесения сонантов и гласных, в противоположность шумным согласным, определяют по высокой интенсивности частотных составляющих в диапазоне средних частот выше низкочастотной области в диапазоне возможных значений частоты основного тона, но вмещающих в себя диапазон возможных значений частот формант сонантов. Интенсивность частотных составляющих в текущем окне считается относительно их максимальной интенсивности в речевом сигнале на протяжении сравнительно длинного отрезка речевого сигнала длиной около 5 секунд.The sonority of a speech signal, characteristic of pronouncing sonants and vowels, as opposed to noisy consonants, is determined by the high intensity of the frequency components in the mid-frequency range above the low-frequency region in the range of possible frequencies of the fundamental tone, but containing the range of possible frequencies of the formants of the sonants. The intensity of the frequency components in the current window is considered relative to their maximum intensity in the speech signal over a relatively long segment of the speech signal with a length of about 5 seconds.

Еще одним акустическим признаком, используемым при распознавании речи и для характеристики групп фонем, является отсутствие или наличие гармонических составляющих в спектре в частотной области выше диапазона возможных значений частот формант сонантов. Отсутствие гармонических составляющих в области средних и верхних частот характерно для сонантов, а присутствие для гласных. Наличие или отсутствие гармонических составляющих определяется по отношению интенсивности частотных составляющих ниже и выше частотного порога.Another acoustic feature used in speech recognition and for characterizing phoneme groups is the absence or presence of harmonic components in the spectrum in the frequency domain above the range of possible frequencies of the formants of the sonants. The absence of harmonic components in the mid and high frequencies is characteristic of the sonants, and the presence of vowels. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components below and above the frequency threshold.

Другой важной акустической характеристикой звуков речи является качество возможно произнесенного гласного, а именно ряд его произнесения, т.е. положения основной массы языка в полости рта в горизонтальном положении. Ряд произнесения гласного определяют по соотношению интенсивности гармонических составляющих в спектре речевого сигнала в области низких частот, области средних частот и области верхних частот. Отсутствие гармонических составляющих в спектре речевого сигнала в области средних частот и области верхних частот свидетельствует о произнесении гласного заднего ряда. Присутствие гармонических составляющих в спектре речевого сигнала в области средних частот свидетельствует о произнесении гласного среднего ряда. Одновременное присутствие гармонических составляющих в спектре речевого сигнала в области низких частот и области верхних частот и их отсутствие в области средних частот свидетельствует о произнесении гласного заднего ряда. Наличие или отсутствие гармонических составляющих определяют по отношению интенсивности частотных составляющих в области низких частот, области средних частот и области верхних частот.Another important acoustic characteristic of speech sounds is the quality of a vowel that has been pronounced, namely, the number of pronunciations, i.e. the position of the bulk of the tongue in the oral cavity in a horizontal position. A number of vowel pronunciations is determined by the ratio of the intensity of the harmonic components in the spectrum of the speech signal in the low frequency region, the middle frequency region and the high frequency region. The absence of harmonic components in the spectrum of the speech signal in the mid-range and high-frequency region indicates the pronunciation of the back vowel. The presence of harmonic components in the spectrum of the speech signal in the mid-frequency region indicates the pronunciation of the vowel middle series. The simultaneous presence of harmonic components in the spectrum of the speech signal in the low-frequency region and in the high-frequency region and their absence in the middle-frequency region indicates the pronunciation of the back vowel. The presence or absence of harmonic components is determined by the ratio of the intensity of the frequency components in the low frequency region, the middle frequency region and the high frequency region.

В способе согласно изобретению используют следующие группы фонем: смычные глухие шумные согласные, смычные звонкие шумные согласные, глухие шумные щелевые согласные, звонкие шумные щелевые согласные, глухие сибилянты, звонкие сибилянты, носовые и щелевые сонанты, дрожащие сонанты, гласные переднего ряда, гласные смешанного ряда и гласные заднего ряда.In the method according to the invention, the following groups of phonemes are used: phonetic deaf noisy consonants, phonetic voiced noisy consonants, deaf noisy slotted consonants, voiced noisy slotted consonants, deaf sibilants, voiced sibilants, nasal and slotted sonants, trembling sonants, front vowels, mixed vowels and back row vowels.

Смычные глухие шумные согласные определяются следующими акустическими признаками: отсутствием основного тона и широкополосных шумов, и характеризуются смычкой, то есть фактическим отсутствием речевого сигнала, и последующими кратковременными широкополосными шумами. Смычные глухие шумные согласные отличаются от пауз между словами длиной смычки, которая значительно короче паузы между словами, и наличием последующего взрыва, характеризующегося кратковременными широкополосными шумами.The closed, dull, noisy consonants are determined by the following acoustic features: the absence of a fundamental tone and broadband noise, and are characterized by a bow, that is, an actual absence of a speech signal, and subsequent short-term wide-band noise. The closed, dull, noisy consonants differ from the pauses between words with the length of the bow, which is much shorter than the pause between words, and the presence of a subsequent explosion, characterized by short-term wide-band noises.

Смычные звонкие шумные согласные однозначно определяются следующими акустическими признаками: наличием основного тона и отсутствием широкополосных шумов на месте смычки, а также последующими кратковременными широкополосными шумами на месте взрыва.The loud voiced noisy consonants are uniquely determined by the following acoustic features: the presence of the fundamental tone and the absence of broadband noise at the site of the bow, as well as subsequent short-term wideband noise at the site of the explosion.

Глухие шумные щелевые согласные определяются следующими акустическими признаками: отсутствием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Deaf noisy slotted consonants are determined by the following acoustic features: the absence of a fundamental tone, the presence of broadband noise, the absence of high-frequency noise, and the absence of sonority.

Звонкие шумные щелевые согласные определяются следующими акустическими признаками: наличием основного тона, наличием широкополосных шумов, отсутствием высокочастотных шумов, отсутствием сонорности.Voiced noisy slotted consonants are determined by the following acoustic features: the presence of the fundamental tone, the presence of broadband noise, the absence of high-frequency noise, and the absence of sonority.

Глухие сибилянты определяются следующими акустическими признаками: отсутствием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.Deaf sibilants are determined by the following acoustic features: the absence of a fundamental tone, the presence of broadband noise, the presence of high-frequency noise, and the absence of sonority.

Звонкие сибилянты определяются следующими акустическими признаками: наличием основного тона, наличием широкополосных шумов, наличием высокочастотных шумов, отсутствием сонорности.Voiced sibilants are determined by the following acoustic features: the presence of a fundamental tone, the presence of broadband noise, the presence of high-frequency noise, and the absence of sonority.

Носовые и щелевые сонанты определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой отсутствия гласного.Nasal and fissured sonants are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, and the acoustic characteristic of the absence of a vowel.

Дрожащие сонанты определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, наличием перепада интенсивности речевого сигнала.Trembling sonants are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, the presence of a difference in the intensity of the speech signal.

Гласные заднего ряда определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой заднего ряда гласного.The vowels of the back row are determined by the following acoustic features: the presence of the main tone, the presence of sonority, the acoustic characteristic of the presence of the vowel, the acoustic characteristic of the back row of the vowel.

Гласные смешанного ряда определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой смешанного ряда гласного.Mixed vowels are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, the acoustic characteristic of the presence of a vowel, the acoustic characteristic of a mixed vowel.

Гласные переднего ряда определяются следующими акустическими признаками: наличием основного тона, наличием сонорности, акустической характеристикой присутствия гласного, акустической характеристикой переднего ряда гласного.The vowels of the front row are determined by the following acoustic features: the presence of the fundamental tone, the presence of sonority, the acoustic characteristic of the presence of the vowel, the acoustic characteristic of the front row of the vowel.

Аффрикаты рассматриваются как последовательное произнесение соответствующих смычного и щелевого согласного.Affricates are considered as a sequential pronunciation of the corresponding concave and crevice consonants.

Следующим этапом в ходе обработки речевого сигнала (фиг. 2) является вычисление вероятностей всех состояний фонем по отношению к текущему сегменту (блок 206). При описании фонем используются скрытые марковские модели с тремя состояниями (модель Бэкиса).The next step in the processing of the speech signal (Fig. 2) is to calculate the probabilities of all phoneme states with respect to the current segment (block 206). When describing phonemes, hidden Markov models with three states are used (Beckis model).

Проблема, возникающая при использовании дискретных марковских моделей, заключается в том, что в большинстве практических задач наблюдения являются непрерывными сигналами (или векторами) и их квантование с помощью кодовых книг может иногда приводить к серьезным искажениям исходного сигнала. Поэтому часто для распознавания речи используют СММ с непрерывными плотностями наблюдений. В таких моделях плотность наблюдений описывается следующим образом:The problem that arises when using discrete Markov models is that in most practical problems, observations are continuous signals (or vectors) and their quantization using code books can sometimes lead to serious distortions of the original signal. Therefore, often for speech recognition using SMM with continuous densities of observations. In such models, the density of observations is described as follows:

Figure 00000001
Figure 00000001

где О - моделируемый вектор наблюдений, Mj - число компонент в состоянии j, Cmj - весовой коэффициент m-й компоненты в состоянии j и ϑ - произвольная логарифмически-вогнутая или эллиптически-симметричная плотность вероятности (например, гауссовская) с вектором средних значений µjm и ковариационной матрицей Ujm для m-й компоненты в состоянии j. Как правило, в качестве плотности вероятности используется гауссовская плотность. Плотности такого вида часто используются на практике, поскольку позволяют с любой точностью аппроксимировать произвольную непрерывную функцию плотности вероятности, содержащую конечное число компонент.where O is the simulated observation vector, M j is the number of components in state j, C mj is the weight coefficient of the mth component in state j, and ϑ is an arbitrary logarithmically concave or elliptically symmetric probability density (for example, Gaussian) with a mean vector µ jm and the covariance matrix U jm for the mth component in state j. As a rule, a Gaussian density is used as the probability density. Densities of this kind are often used in practice, since they allow us to approximate, with any accuracy, an arbitrary continuous probability density function containing a finite number of components.

Выбор числа компонент зависит, прежде всего, от объема обучающих данных и вычислительной мощности устройства, где будет производиться распознавание речи. При недостаточном объеме данных может оказаться, что число обучающих векторов будет меньше, чем число компонент и в этом случае на этапе обучения произойдет сбой. Также следует учитывать, что с увеличением числа компонент, возрастает и вычислительная сложность алгоритма распознавания речи.The choice of the number of components depends, first of all, on the amount of training data and the computing power of the device where speech recognition will be performed. With insufficient data, it may turn out that the number of training vectors will be less than the number of components and in this case a failure will occur at the training stage. It should also be noted that with an increase in the number of components, the computational complexity of the speech recognition algorithm also increases.

В блоке 206 осуществляется обработка гипотезы распознавания с использованием предустановленного словаря на базе ДМПГ [Ронжин А.Л. Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях: дис.… д-ра техн. наук: 05.13.11. - СПб. - 2010. - 299 с].In block 206, the recognition hypothesis is processed using a predefined dictionary based on the DMPG [A. Ronzhin Methods and software for multichannel remote speech processing and their application in interactive multimodal applications: dis. ... Dr. tech. Sciences: 05.13.11. - SPb. - 2010. - 299 s].

Описание гипотезы включает: указатель на текущий узел в графе, число обработанных сегментов речи, цепочку пройденных фонем по графу, массив пройденных основ и окончаний по графу, указатель на структуру текущей модели фонемы, длительность нахождения гипотезы в текущем состоянии, а также акустическую вероятность, вероятность модели языка, морфологическую оценку согласованности концовок в гипотезе, наконец, комплексную оценку гипотезы и многие другие параметры, необходимые для обработки гипотезы. В зависимости от типа текущего узла гипотеза распознавания следует на обработку фонем или же концевых узлов (основы или концовки).The description of the hypothesis includes: a pointer to the current node in the graph, the number of processed speech segments, a chain of phonemes passed through the graph, an array of passed bases and endings along the graph, a pointer to the structure of the current phoneme model, the duration of the hypothesis in the current state, as well as acoustic probability, probability language models, a morphological assessment of the consistency of endings in a hypothesis, finally, a comprehensive assessment of a hypothesis and many other parameters necessary for processing a hypothesis. Depending on the type of the current node, the recognition hypothesis follows the processing of phonemes or end nodes (bases or endings).

В первом случае производится обработка фонемного узла или из текущей гипотезы формируется j дочерних гипотез по числу дуг, исходящих из начального узла. Затем каждая из дочерних гипотез независимо анализируется в блоке обработки фонемного узла. После анализа всех дочерних гипотез, производится их оценка и отсеивание маловероятных гипотез.In the first case, the phoneme node is processed or the j hypotheses are formed from the current hypothesis according to the number of arcs emanating from the initial node. Then, each of the child hypotheses is independently analyzed in the processing unit of the phoneme node. After analysis of all child hypotheses, they are evaluated and screened out of unlikely hypotheses.

Во втором случае, когда текущая гипотеза содержит концевой узел, то соответственно индекс основы или концовки сохраняется в структуре гипотезы. Далее в случае анализа основы выполняется оценка вероятности накопленной цепочки основ по модели языка. После чего во всех случаях гипотеза размножается по числу дуг, исходящих из текущего узла, а затем производятся рекурсивные действия над каждой дочерней гипотезы в блоке обработки гипотезы распознавания по графу ДМПГ. Движение по графу продолжается до тех пор, пока текущая гипотеза и все ее дочерние не будут обработаны. При поступлении гипотезы в блок обработки фонемного узла в первую очередь определяется название фонемы и число состояний, достижимых из текущего узла. После чего гипотеза размножается, а каждая дочерняя последовательно обрабатывается в цикле, где проверяется длительность нахождения в текущем состоянии, оценивается вероятность перехода в следующее состояние и вероятность текущего состояния по отношению к входному вектору признаков. При переходе в следующее состояние акустическая вероятность гипотезы увеличивается на сумму логарифмов вероятности перехода в следующее состояние и вероятности текущего состояния.In the second case, when the current hypothesis contains an end node, respectively, the index of the base or ending is stored in the structure of the hypothesis. Further, in the case of analysis of the basis, the probability of the accumulated chain of bases is estimated by the language model. After that, in all cases, the hypothesis is multiplied by the number of arcs emanating from the current node, and then recursive actions are performed on each child hypothesis in the processing unit for the recognition hypothesis using the DMMP graph. The movement along the graph continues until the current hypothesis and all its children are processed. When a hypothesis arrives at the processing unit of a phoneme node, the name of the phoneme and the number of states reachable from the current node are determined first. After that, the hypothesis is multiplied, and each daughter is sequentially processed in a cycle where the duration of being in the current state is checked, the probability of transition to the next state and the probability of the current state with respect to the input feature vector are estimated. Upon transition to the next state, the acoustic probability of the hypothesis increases by the sum of the logarithms of the probability of transition to the next state and the probability of the current state.

В случае перехода в конечное состояние фонемы, производится запись названия фонемы в структуру гипотезы, и на этом оценка гипотезы в модели фонемы завершается, а сама гипотеза размножается по числу дуг, исходящих из текущего узла фонемы, а затем производятся рекурсивные действия над каждой дочерней гипотезы в блоке обработки гипотезы распознавания по графу ДМПГ.In the case of transition to the final state of the phoneme, the name of the phoneme is recorded in the hypothesis structure, and this completes the evaluation of the hypothesis in the phoneme model, and the hypothesis itself is multiplied by the number of arcs coming from the current phoneme node, and then recursive actions are performed on each child hypothesis in the processing unit of the recognition hypothesis according to the graph DMPG.

Формирование предустановленного словаря на базе ДМПГ, т.е. преобразование списка словоформ и их транскрипций в граф ДМПГ, производится следующим образом (фиг. 3). В ходе обработки каждая транскрипция раскладывается по существующему графу, в случае отсутствия соответствующего фонетического пути для продолжения данной транскрипции строится свой дополнительный путь, состоящий из узлов оставшихся фонем в основе транскрипции. После разложения основы, производится поиск концовки среди существующих в графе. Если такая концовка уже существует, то ее узел связывается дугой с узлом анализируемой основы, если же нет, то строится новый узел концовки и последовательность узлов фонем для ее транскрипции. Информация о грамматических показателях словоформы не хранится в графе ДМПГ, так как при декодировании используется специальный модуль морфосинтаксического анализа, где обеспечивается, в том числе, построение парадигмы слова по индексу основы [Леонтьева Ан.Б. Модуль морфофонетической обработки слов для построения словаря распознавателя русской слитной речи. Научно-теоретический журнал «Искусственный интеллект», №3. - Донецк, Украина, 2007. - С. 319-327].The formation of a predefined dictionary based on the DMPG, i.e. the conversion of the list of word forms and their transcriptions into the graph DMPG is as follows (Fig. 3). During processing, each transcription is decomposed according to the existing graph, in the absence of an appropriate phonetic path to continue this transcription, an additional path is constructed consisting of the nodes of the remaining phonemes at the base of transcription. After decomposing the base, a search is made for the ending among existing ones in the graph. If such an ending already exists, then its node is connected by an arc to the node of the analyzed base; if not, a new node of the ending and a sequence of phoneme nodes for its transcription are constructed. Information on the grammatical indicators of the word form is not stored in the DMPG column, since a special module of morphosyntactic analysis is used for decoding, which ensures, among other things, the construction of the word paradigm by the base index [Leontyeva An.B. Morphophonetic word processing module for building a dictionary of recognizer of Russian continuous speech. Scientific and theoretical journal "Artificial Intelligence", No. 3. - Donetsk, Ukraine, 2007. - S. 319-327].

В блоке 302 производится загрузка списка всех уникальных транскрипций, полученного в результате обработки словаря предметной области.In block 302, a list of all unique transcriptions obtained as a result of processing the domain dictionary is loaded.

В блоке 304 осуществляется подготовка переменных и структур графа ДМПГ, в частности инициализируется начальный узел, обнуляется счетчик исходящих из него дуг. Счетчик транскрипций устанавливается в ноль i=0.In block 304, the variables and structures of the DMPG graph are prepared, in particular, the initial node is initialized, and the counter of arcs originating from it is reset. The transcription counter is set to zero i = 0.

Для текущей транскрипции в блоке 306 производится заполнение полей структуры, содержащей ее основные данные: фонетическую транскрипцию Ti с разметкой на основу и концовку, а также порядковый номер основы Ni для данной словоформы. Пофонемное сравнение транскрипции Ti начинается с начального узла графа, для этого в блоке 308 текущим узлом устанавливается начальный узел графа, а счетчик фонем анализируемой транскрипции устанавливается в ноль j=0.For the current transcription, in block 306, the fields of the structure containing its main data are filled in: phonetic transcription T i with the marking on the base and ending, as well as the serial number of the base N i for this word form. A phonemic comparison of the transcription T i begins with the starting node of the graph; for this, in block 308, the current node sets the starting node of the graph, and the phoneme counter of the analyzed transcription is set to zero j = 0.

В блоке 310 производится сравнение текущей фонемы Tij анализируемой транскрипции со всеми дочерними узлами фонем от текущего узла. Если в блоке 312 определяют, что символ Tij уже существует в дочерних узлах, то алгоритм 300 переходит в блок 314, где значением текущего узла устанавливается дочерний узел с найденным символом Tij. Если в блоке 312 определяют, что дочернего узла с символом Tij не существует у текущего узла, то алгоритм 300 переходит в блок 316, где производится создание нового дочернего узла для фонемы Tij, а затем в блоке 318 текущим узлом устанавливается новый созданный дочерний узел с фонемой Tij. Далее работа алгоритма 300 продолжается в блоке 320.In block 310, a comparison is made of the current phoneme T ij of the analyzed transcription with all child phoneme nodes from the current node. If it is determined in block 312 that the symbol T ij already exists in the child nodes, then the algorithm 300 proceeds to block 314, where the value of the current node sets the child node with the found symbol T ij . If it is determined in block 312 that the child node with the symbol T ij does not exist at the current node, then the algorithm 300 proceeds to block 316, where a new child node is created for the phoneme T ij , and then in block 318 the new created child node is established by the current node with phoneme T ij . Next, the operation of the algorithm 300 continues at block 320.

В блоке 320 счетчик фонем анализируемой транскрипции увеличивается на единицу для перехода к следующей фонеме. В блоке 322 проверяется, достигнут ли конец основы в транскрипции. Если в блоке 322 определяют, что текущим символом транскрипции является прямой слеш Tij=′/′, то алгоритм 300 переходит в блок 324. Если в блоке 322 определяют, что текущий символ является фонемой, то алгоритм 300 снова продолжается в блоке 306 до тех пор, пока не будет проанализирована транскрипция всей основы словоформы.At a block 320, the phoneme counter of the transcription being analyzed is incremented by one to advance to the next phoneme. At block 322, a check is made to see if the end of the stem has been reached in transcription. If in block 322 it is determined that the current transcription symbol is a forward slash T ij = ′ / ′, then algorithm 300 proceeds to block 324. If in block 322 it is determined that the current symbol is a phoneme, then algorithm 300 continues in block 306 again until until the transcription of the entire base of the word form is analyzed.

Алгоритм 300 приходит в блок 324, когда транскрипция основы разложена по первому уровню графа ДМПГ и требуется сохранить в графе информацию о самой словоформе. Для этого в блоке 324 проводится анализ всех существующих в графе узлов основ, и, прежде всего, анализируются дочерние узлы текущего узла фонемы. Если в блоке 326 определяют, что узла основы с индексом Ni не существует, то алгоритм 300 продолжается в блоке 328, где для основы с индексом Ni создается новый дочерний узел, а затем в блоке 330 он устанавливается текущим узлом. Если же в блоке 326 определяют, что узел основы с индексом Ni уже существует в графе, то алгоритм 300 продолжается в блоке 332, где найденный узел становится текущим.Algorithm 300 arrives at block 324 when the transcription of the stem is laid out in the first level of the DMPG column and it is required to save information about the word form in the column. To do this, in block 324, an analysis is made of all the foundations existing in the graph of nodes, and, first of all, the child nodes of the current phoneme node are analyzed. If it is determined in block 326 that the base node with index N i does not exist, then the algorithm 300 continues at block 328, where a new child node is created for the base with index N i , and then in block 330 it is set by the current node. If, in block 326, it is determined that the base node with index N i already exists in the graph, then the algorithm 300 continues in block 332, where the found node becomes the current one.

Следует отметить, что для одного слова может существовать несколько основ и транскрипций с различными индексами. Сведение различных фонетических путей к одному узлу основы может быть только в случае существования нескольких вариантов произношения одной и той же основы вследствие внутрисловной ассимиляции, редукции и других коартикуляционных эффектов в процессе речеобразования [Леонтьева Ал.Б., Кипяткова И.С. Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной речи. Труды первого междисциплинарного семинара «Анализ разговорной русской речи» (АР3-2007). - СПб.: ГУАП, 2007. - С. 77-85].It should be noted that for one word there can be several stems and transcriptions with different indices. The reduction of different phonetic paths to one node of the base can only be possible if there are several variants of pronunciation of the same base due to intra-word assimilation, reduction and other co-articulation effects in the process of speech formation [Leontyeva Al.B., Kipyatkova I.S. Modeling non-dumb speech elements and creating alternative transcriptions for recognizing spontaneous speech. Proceedings of the first interdisciplinary seminar "Analysis of colloquial Russian speech" (AR3-2007). - St. Petersburg: SUAI, 2007. - S. 77-85].

В блоке 334 производится переход к анализу концовки, для этого счетчик фонем транскрипции увеличивается на единицу, и текущей фонемой в транскрипции становится первая фонема в концовке, соответственно оставшаяся часть транскрипции является транскрипцией концовки. В блоке 336 проводится ее сравнение со всеми существующими узлами концовок. Если в блоке 338 определяют, что узел с идентичной транскрипцией концовки уже существует, то алгоритм 300 переходит к анализу следующей словоформы в блоке 354. Если в блоке 338 определяют, что такой транскрипции концовки не существует, то алгоритм 300 продолжается в блоке 340.In block 334, a transition is made to analysis of the ending, for this the counter of phonemes of transcription is increased by one, and the first phoneme in the ending becomes the current phoneme in the transcription, respectively, the remaining part of the transcription is the transcription of the ending. At block 336, a comparison is made with all existing ending nodes. If at block 338 it is determined that a node with identical transcription of the ending already exists, then algorithm 300 proceeds to analyze the next word form in block 354. If at block 338 it is determined that such a transcription of the ending does not exist, then algorithm 300 continues at block 340.

Обработка новой концовки и ее сохранение в структуре графа производится в блоках 340-352. В блоке 340 создается новый дочерний узел, содержащий транскрипцию концовки и порядковый номер концовки. В блоке 346 созданный узел устанавливается текущим. Затем в блоках 348-350 создается последовательность связанных узлов фонем для транскрипции концовки. Построение фонетического пути концовки осуществляется независимо от других концовок, так в структуре графа хранятся только уникальные транскрипции концовок. По завершению разбора транскрипции в блоке 352 из узла последней фонемы транскрипции концовки устанавливается обратная связь в начальный узел. Далее алгоритм 300 переходит к анализу следующей словоформы в блоке 354. Если в блоке 354 определяют, что словоформ больше нет, то алгоритм 300 переходит в блок 356, где полученный граф ДМПГ для анализируемого списка словоформ и их транскрипций сохраняется в виде бинарного файла для последующего использования согласно предложенного способа распознавания речи.Processing of the new ending and its preservation in the graph structure is performed in blocks 340-352. At block 340, a new child node is created containing the transcription of the ending and the sequence number of the ending. In block 346, the created node is set current. Then, in blocks 348-350, a sequence of connected phoneme nodes is created for transcribing the ending. The construction of the phonetic path of the ending is carried out independently of other endings, so only unique transcriptions of the endings are stored in the graph structure. Upon completion of the transcription analysis in block 352 from the node of the last phoneme of transcription of the ending, feedback is established in the initial node. Next, algorithm 300 proceeds to analysis of the next word form in block 354. If it is determined in block 354 that there are no more word forms, then algorithm 300 proceeds to block 356, where the resulting DMPG graph for the analyzed list of word forms and their transcriptions is saved as a binary file for subsequent use according to the proposed method of speech recognition.

После того как все текущие их дочерние гипотезы были обработаны с учетом текущего сегмента речи, производится их взвешенная оценка по акустической вероятности и вероятности модели языка (блок 208). Для сокращения числа гипотез осуществляется сравнение параметров гипотез. В результате среди гипотез, прошедших одинаковый путь по графу, содержащих одинаковую последовательность фонем и находящихся в одном и том же состоянии, выбирается одна с наибольшей вероятностью.After all their current child hypotheses have been processed taking into account the current speech segment, they are weighed by the acoustic probability and probability of the language model (block 208). To reduce the number of hypotheses, a comparison of the parameters of hypotheses is performed. As a result, among the hypotheses that have traveled the same path along the graph, contain the same sequence of phonemes and are in the same state, one is most likely selected.

После обработки и упорядочивания всех гипотез по вероятности осуществляется окончательное сокращение набора, учитывая максимальное допустимое число гипотез, переходящих на следующий шаг по графу ДМПГ. В зависимости от вычислительной мощности системы распознавания число лучших гипотез переходящих на следующий шаг выбирается таким образом, чтобы суммарное время обработки не превышало длительность обрабатываемого сигнала в 5-10 раз.After processing and ordering all the hypotheses in probability, the final reduction of the set is carried out, taking into account the maximum allowable number of hypotheses that go to the next step in the DMMP graph. Depending on the processing power of the recognition system, the number of best hypotheses going to the next step is chosen so that the total processing time does not exceed the duration of the processed signal by 5-10 times.

Далее в блоке 209 осуществляется синтаксическое согласование гипотез, которые содержат две и более основ. Основной принцип синтаксического согласования концовок схематично представлен на фиг. 4.Next, in block 209, syntax matching of hypotheses that contain two or more bases is performed. The basic principle of syntactic matching of endings is shown schematically in FIG. four.

Гипотезы содержат индексы распознанных основ S, концовок Е, их акустические вероятности РА, а также оценку по модели языка основ PSLM. Этот поток данных далее поступает на вход синтаксического анализатора, где проверяется синтаксическая и грамматическая согласованность гипотезы фразы. Концовки, вызывающие сомнение, исправляются посредством синтаксического анализа и морфологического синтезатора, который генерирует все подходящие концовки для основ во фразе [Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А., Леонтьева Ал.Б. Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи // Труды СПИИРАН. Вып. 4, т. 1. - СПб.: Наука, 2007. - С. 388-404]. Если концовка была распознана неверно, то после ее замены на синтаксически правильный вариант акустическая вероятность концовки PA(E1) будет перемножена с некоторым понижающим коэффициентом kG. Если возможно несколько вариантов правильных гипотез фраз с разными концовками, то гипотеза фразы размножается.Hypotheses contain codes recognized bases S, E endings, their acoustic probabilities P A, and the evaluation of model bases language P SLM. This data stream is then fed to the input of the parser, where the syntactic and grammatical consistency of the phrase hypothesis is checked. Doubtful endings are corrected through parsing and a morphological synthesizer that generates all the suitable endings for the basics in the phrase [Ronzhin A.L., Leontyeva An.B., Kagirov I.A., Leontyeva Al.B. Two-level morphophonemic prefix graph for decoding Russian continuous speech // Transactions of SPIIRAS. Vol. 4, vol. 1. - St. Petersburg: Nauka, 2007. - S. 388-404]. If the ending was not recognized correctly, then after replacing it with the syntactically correct version, the acoustic probability of the ending P A (E 1 ) will be multiplied with some decreasing coefficient k G. If several variants of the correct hypotheses of phrases with different endings are possible, then the hypothesis of a phrase propagates.

При выставлении окончательной комплексной оценки гипотезы фразы (блок 210) учитывается: акустическая вероятность последовательности основ и концовок; вероятность комбинации основ с учетом модели языка; соответствие гипотезы правилам синтаксиса; число грамматически верных окончаний в последовательности словоформ. Последние два показателя нормализуются таким образом, чтобы их значения варьировались в диапазоне от нуля до единицы. Линейная комбинация всех четырех показателей используется для выбора гипотезы фразы с максимальной вероятностью, которая и является результатом распознавания.When setting the final comprehensive assessment of the phrase hypothesis (block 210), the following are taken into account: the acoustic probability of the sequence of bases and endings; the likelihood of a combination of the basics taking into account the language model; conformity of the hypothesis to syntax rules; the number of grammatically correct endings in the sequence of word forms. The last two indicators are normalized so that their values vary in the range from zero to one. A linear combination of all four indicators is used to select the phrase hypothesis with maximum probability, which is the result of recognition.

В блоке 211 осуществляется преобразование результатов распознавания всех сегментов речевого сигнала в связный текст и вывод его с помощью устройств вывода.In block 211, the recognition results of all segments of the speech signal are converted into a coherent text and its output using output devices.

Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа может быть реализован с помощью известных устройств. Так, блок приема представляет собой буферное устройство, которое может быть реализовано с использованием матрицы ОЗУ. Схемы ОЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко «Микросхемы и их применение» (М: Радио и связь, 1989, с. 146). В частности, ОЗУ может быть реализовано на микросхемах К565 серии.A speech recognition method based on a two-level morphophonemic prefix graph can be implemented using known devices. So, the receiving unit is a buffer device, which can be implemented using a matrix of RAM. RAM circuits are known and described, for example, in the book of V.N. Veniaminova, O.N. Lebedeva A.I. Miroshnichenko "Microcircuits and their application" (M: Radio and communications, 1989, p. 146). In particular, RAM can be implemented on K565 series chips.

Аналого-цифровой преобразователь является известным устройством и описан, например, в книге Рахтор Т.С. Цифровые измерения. АЦП / ЦАП. - М.: Техносфера, 2006. - С. 239-243. В частности схема может быть реализована на микросхемах AD1482.An analog-to-digital converter is a known device and is described, for example, in the book of Rakhtor TS Digital measurements. ADC / DAC. - M .: Technosphere, 2006 .-- S. 239-243. In particular, the circuit can be implemented on AD1482 chips.

Блоки 203-211 представляют собой устройства сходящихся вычислений. Схемы устройств сходящихся вычислений известны и описаны, например, в книге Э. Айфичера, Б. Джервиса «Цифровая обработка сигналов: практический подход» (М.: Издательский дом «Вильяме», 2004. - С. 850). В частности, такая схема может быть реализована на комплексных умножителях PDSP16112A (Mitel) и комплексных накопителях PDSP16318A (Mitel).Blocks 203-211 are convergent computing devices. Schemes of convergent computing devices are known and described, for example, in the book by E. Ayficher, B. Jervis, “Digital Signal Processing: A Practical Approach” (M .: Williams Publishing House, 2004. - P. 850). In particular, such a scheme can be implemented on complex multipliers PDSP16112A (Mitel) and complex drives PDSP16318A (Mitel).

Предустановленный словарь на базе ДМПГ может быть реализован на основе постоянных запоминающих устройств (ПЗУ). Схемы ПЗУ известны и описаны, например, в книге В.Н. Вениаминова, О.Н. Лебедева, А.И. Мирошниченко. Микросхемы и их применение. М.: Радио и связь, 1989. - С. 156. В частности, ПЗУ может быть реализовано на микросхемах К555 серии.A predefined dictionary based on DMPG can be implemented on the basis of read-only memory (ROM). ROM schemes are known and described, for example, in the book of V.N. Veniaminova, O.N. Lebedeva A.I. Miroshnichenko. Microcircuits and their application. M .: Radio and communications, 1989. - S. 156. In particular, ROM can be implemented on K555 series microcircuits.

Устройство вывода реализует функции устройства предварительного просмотра и содержит дисплей или тому подобное устройство. Описание устройств вывода представлено в книге Авдеев В. А. Периферийные устройства: интерфейсы, схемотехника, программирование. - М.: ДМК Пресс, 848 с: ил. - С. 451-526.The output device implements the functions of the preview device and includes a display or the like. A description of the output devices is presented in the book by V. A. Avdeev. Peripheral devices: interfaces, circuitry, programming. - M .: DMK Press, 848 s: ill. - S. 451-526.

Заявленный способ распознавания речи на основе двухуровневого морфофонемного префиксного графа позволяет сократить объем элементов памяти, необходимый для хранения предустановленного словаря, и снизить вычислительную сложность процесса распознавания речи.The claimed method of speech recognition based on a two-level morphophonemic prefix graph can reduce the amount of memory elements needed to store a predefined dictionary and reduce the computational complexity of the speech recognition process.

Для доказательства достижения заявленного технического результата приведен следующий сравнительный анализ ДМПГ с двумя общепринятыми моделями представления словаря: линейная модель списка всех словоформ и лексическое дерево (фиг.1). Показателем вычислительной сложности во многих практических случаях являются оценки требуемого количества вычислений по графу, в роли которых часто используются: число узлов и дуг, а также плотность графа [Ney Н., Ortmarms S., Lindam I. Extensions to the Word Graph Method for Large Vocabulary Continuous Speech Recognition" Proc. of ICASSP′97, Vol. 3, 1997. - pp. 1787-1790]. Плотность графа словаря в рассматриваемом случае вычисляется как отношение суммарного числа узлов и дуг к числу словоформ в словаре.To prove the achievement of the claimed technical result, the following comparative analysis of DMPG with two generally accepted models for presenting a dictionary is presented: a linear model of the list of all word forms and a lexical tree (Fig. 1). An indicator of computational complexity in many practical cases is estimates of the required number of calculations on a graph, which often include the number of nodes and arcs, as well as graph density [Ney N., Ortmarms S., Lindam I. Extensions to the Word Graph Method for Large Vocabulary Continuous Speech Recognition "Proc. Of ICASSP′97, Vol. 3, 1997. - pp. 1787-1790]. The density of the dictionary graph in this case is calculated as the ratio of the total number of nodes and arcs to the number of word forms in the dictionary.

Указанные характеристики графов, построенных по трем разным подходам, представлены в таблице 1.The indicated characteristics of graphs constructed by three different approaches are presented in table 1.

Figure 00000002
Figure 00000002

ДМПГ описывая точно такой же словарь, как и основные модели, используя при этом в 7,99 раз меньше число узлов фонем, а также имеет в 9,4 раз меньше плотность графа по сравнению с лексическим деревом, что однозначно указывает на уменьшение объем элементов памяти, необходимый для хранения предустановленного словаря.DMPG describing exactly the same dictionary as the main models, using 7.99 times less number of phoneme nodes, and also has 9.4 times less graph density compared to the lexical tree, which clearly indicates a decrease in the amount of memory elements required to store a predefined dictionary.

Также было проанализировано, как изменяются параметры моделей в зависимости от размера словаря (фиг. 5). Сокращенные словари создавались путем случайного отбора заданного числа уникальных словоформ из базового словаря. По суммарному числу узлов словарь на базе ДМПГ имеет явное преимущество, начиная с размера около 10000 словоформ. По остальным показателям, в том числе по плотности графа (таблица 2) ДМПГ лидирует уже после 100 словоформ.It was also analyzed how the parameters of the models change depending on the size of the dictionary (Fig. 5). Abbreviated dictionaries were created by randomly selecting a given number of unique word forms from the base dictionary. In terms of the total number of nodes, a dictionary based on DMPG has a clear advantage, starting with a size of about 10,000 word forms. For other indicators, including the density of the graph (table 2), DMPG is in the lead after 100 word forms.

Figure 00000003
Figure 00000003

Для ДМПГ лексическое дерево строится для основ, а не полных словоформ и поэтому в среднем длина транскрипций основ будет меньше. Поскольку в ДМПГ хранятся только уникальные концовки, то при формировании транскрипций словоформ по графу алгоритм будет использовать одни и те же концовки несколько раз. Во избежание многократного подсчета узлов одной и той же концовки, при анализе запоминаются все использованные концовки и учитываются узлы фонем только концовки, которая встретилась впервые. В результате декомпозиции словоформы на основу и концовку, а также учета транскрипций только новых концовок число срезов в словаре на базе ДМПГ на пять меньше по сравнению с линейной моделью и лексическим деревом.For DMPG, the lexical tree is built for stems, not complete word forms, and therefore, on average, the length of transcriptions of stems will be less. Since only unique endings are stored in the DMPG, the algorithm will use the same endings several times when generating transcripts of word forms in a graph. In order to avoid multiple counting of nodes of the same ending, the analysis remembers all used endings and takes into account the phoneme nodes of only the ending that was first encountered. As a result of decomposition of the word form into the base and ending, as well as taking into account transcriptions of only new endings, the number of slices in the dictionary based on the DMPG is five less in comparison with the linear model and the lexical tree.

Таким образом, для предустановленного словаря на базе ДМПГ, включающего 2095659 уникальные транскрипции словоформ, предложенный способ распознавания речи показал заметное преимущество. Используя лексическое дерево для представления транскрипций основ и объединяя одинаковые концовки, срез с максимальным числом узлов фонем достигается почти в 2 раза быстрее, а значение максимума в ДМПГ в 6 раз меньше, чем в лексическом дереве. Полученные при этом результаты распознавании отдельно произнесенных фраз по точности оказались не хуже, чем в способе прототипе, а скорость обработки оказалась выше, особенно при получении списка лучших гипотез, а не единственного варианта.Thus, for a predefined dictionary based on DMPG, including 2095659 unique transcriptions of word forms, the proposed method of speech recognition showed a significant advantage. Using the lexical tree to represent the transcriptions of the stems and combining the same endings, a slice with a maximum number of phoneme nodes is reached almost 2 times faster, and the maximum value in the DMPG is 6 times less than in the lexical tree. The results obtained in recognizing separately pronounced phrases in terms of accuracy were no worse than in the prototype method, and the processing speed was higher, especially when obtaining a list of the best hypotheses, and not the only option.

Claims (1)

Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа, включающий последовательно исполняемые этапы приема речевого сигнала на входе блока приема; обработки речевого сигнала блоком обработки информации, включающей его обработку аналого-цифровым преобразователем с предустановленной частотой дискретизации и разделением на сегменты, спектрального анализа сегментов речевого сигнала и нормализации спектра на высоких частотах; выделения в нормализованном спектре пауз, шумов и звуковых сигналов с последующим его распознаванием и преобразованием в текст с использованием предустановленного словаря, при этом на этапе распознавания на основе исходного речевого сигнала и нормализованного спектра в каждом сегменте определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, параметры которых предустановлены в блоке памяти, отличающийся тем, что после того, как определяют наличие/отсутствие акустических признаков речевого сигнала, комбинаторные наборы которых характеризуют группы фонем, определяют вероятности всех состояний фонем по отношению к текущему сегменту, обрабатывают гипотезы распознавания с использованием предустановленного словаря на базе двухуровневого морфофонетического префиксного графа, осуществляют сравнение параметров гипотез распознавания с целью их упорядочивания, осуществляют синтаксическое согласование гипотез, содержащих две и более основ, формируют результат распознавания на основе комплексной оценки гипотезы фразы, а затем преобразуют результаты распознавания всех сегментов речевого сигнала в связный текст и выводят его с помощью устройств вывода. A speech recognition method based on a two-level morphophonemic prefix graph, comprising successively executed steps for receiving a speech signal at the input of a reception unit; processing the speech signal by the information processing unit, including its processing by an analog-to-digital converter with a pre-set sampling frequency and segmentation, spectral analysis of the speech signal segments and normalization of the spectrum at high frequencies; highlighting in the normalized spectrum of pauses, noises and sound signals with its subsequent recognition and conversion into text using a predefined dictionary, and at the stage of recognition, based on the initial speech signal and normalized spectrum, the presence / absence of acoustic features of the speech signal in each segment is determined, combinatorial sets which characterize groups of phonemes, the parameters of which are predefined in the memory unit, characterized in that after determining the presence / absence of an acus statistical features of a speech signal, combinatorial sets of which characterize phoneme groups, determine the probabilities of all phoneme states with respect to the current segment, process recognition hypotheses using a predefined dictionary on the basis of a two-level morphophonetic prefix graph, compare the recognition hypothesis parameters in order to organize them, syntactically coordinate hypotheses containing two or more bases form the recognition result based on the integrated evaluates the hypothesis of the phrase, and then transform the recognition results of all segments of the speech signal into a coherent text and output it using output devices.
RU2015111718/08A 2015-03-31 2015-03-31 Speech recognition method based on two-level morphophonemic prefix graph RU2597498C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015111718/08A RU2597498C1 (en) 2015-03-31 2015-03-31 Speech recognition method based on two-level morphophonemic prefix graph

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015111718/08A RU2597498C1 (en) 2015-03-31 2015-03-31 Speech recognition method based on two-level morphophonemic prefix graph

Publications (1)

Publication Number Publication Date
RU2597498C1 true RU2597498C1 (en) 2016-09-10

Family

ID=56892612

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015111718/08A RU2597498C1 (en) 2015-03-31 2015-03-31 Speech recognition method based on two-level morphophonemic prefix graph

Country Status (1)

Country Link
RU (1) RU2597498C1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2711153C2 (en) * 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Methods and electronic devices for determination of intent associated with uttered utterance of user
US11289095B2 (en) 2019-12-30 2022-03-29 Yandex Europe Ag Method of and system for translating speech to text
RU2778380C2 (en) * 2019-12-30 2022-08-18 Общество С Ограниченной Ответственностью «Яндекс» Method and system for speech conversion into text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UA7728U (en) * 2004-09-22 2005-07-15 Univ Nat Aviation Speech analyzer ?? ?? ?? ??
RU2268504C9 (en) * 2004-03-30 2006-06-27 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Method for recognition of speech patterns and device for realization of method
RU108172U1 (en) * 2011-03-30 2011-09-10 Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН MULTI-MODAL MOBILE INFORMATION SERVICE AUTOMATIC

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2268504C9 (en) * 2004-03-30 2006-06-27 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Method for recognition of speech patterns and device for realization of method
UA7728U (en) * 2004-09-22 2005-07-15 Univ Nat Aviation Speech analyzer ?? ?? ?? ??
RU108172U1 (en) * 2011-03-30 2011-09-10 Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН MULTI-MODAL MOBILE INFORMATION SERVICE AUTOMATIC

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2711153C2 (en) * 2018-05-23 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Methods and electronic devices for determination of intent associated with uttered utterance of user
US10818284B2 (en) 2018-05-23 2020-10-27 Yandex Europe Ag Methods of and electronic devices for determining an intent associated with a spoken user utterance
US11289095B2 (en) 2019-12-30 2022-03-29 Yandex Europe Ag Method of and system for translating speech to text
RU2778380C2 (en) * 2019-12-30 2022-08-18 Общество С Ограниченной Ответственностью «Яндекс» Method and system for speech conversion into text

Similar Documents

Publication Publication Date Title
JP5014785B2 (en) Phonetic-based speech recognition system and method
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
EP4018437B1 (en) Optimizing a keyword spotting system
Liu et al. Towards unsupervised speech recognition and synthesis with quantized speech representation learning
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
KR20060050361A (en) Hidden conditional random field models for phonetic classification and speech recognition
CN112435654A (en) Data enhancement of speech data by frame insertion
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
Dossou et al. OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
RU2597498C1 (en) Speech recognition method based on two-level morphophonemic prefix graph
Işık et al. Turkish dialect recognition using acoustic and phonotactic features in deep learning architectures
US11670292B2 (en) Electronic device, method and computer program
Kurian et al. Connected digit speech recognition system for Malayalam language
Lecorvé et al. Adaptive statistical utterance phonetization for French
Tyagi Fepstrum features: Design and application to conversational speech recognition
Khalifa et al. Statistical modeling for speech recognition
Trivedi A survey on English digit speech recognition using HMM
KR20140051519A (en) Method for continuous speech recognition and apparatus thereof
Kurian et al. Automated Transcription System for MalayalamLanguage
Li Speech recognition of mandarin monosyllables
Soe et al. Syllable-based speech recognition system for Myanmar
Dalva Automatic speech recognition system for Turkish spoken language
Müller Invariant features and enhanced speaker normalization for automatic speech recognition
Salvi Developing acoustic models for automatic speech recognition

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20210401