RU2119196C1 - Method and system for lexical interpretation of fused speech - Google Patents

Method and system for lexical interpretation of fused speech Download PDF

Info

Publication number
RU2119196C1
RU2119196C1 RU97117246A RU97117246A RU2119196C1 RU 2119196 C1 RU2119196 C1 RU 2119196C1 RU 97117246 A RU97117246 A RU 97117246A RU 97117246 A RU97117246 A RU 97117246A RU 2119196 C1 RU2119196 C1 RU 2119196C1
Authority
RU
Russia
Prior art keywords
output
input
unit
lexical
block
Prior art date
Application number
RU97117246A
Other languages
Russian (ru)
Other versions
RU97117246A (en
Inventor
Яков Юноевич Изилов
Роман Юноевич Изилов
Юно Романович Изилов
Original Assignee
Яков Юноевич Изилов
Роман Юноевич Изилов
Юно Романович Изилов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Яков Юноевич Изилов, Роман Юноевич Изилов, Юно Романович Изилов filed Critical Яков Юноевич Изилов
Priority to RU97117246A priority Critical patent/RU2119196C1/en
Application granted granted Critical
Publication of RU2119196C1 publication Critical patent/RU2119196C1/en
Publication of RU97117246A publication Critical patent/RU97117246A/en

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: automatic control and computer engineering; speech understanding systems, control systems for process equipment and robots, computer hardware and software, computer-aided speech translation, reference systems, etc. SUBSTANCE: omitting phonemic conversion level, lexical decoding network builds hypotheses about probable beginning, continuation, or end of words in speech and most probable sequences of standard words corresponding to delivered speech are compiled. Pronounced words may continuously follow each other in any order or may be separated by pauses or words which do not belong to assigned set of words. Proposed lexical decoding network is essentially integrated data base incorporating orthographic presentation of assigned set of words, expected acoustic presentation of assigned set of words in the form of sequence of standard meanings of speech signal parameter determining acoustic conditions and combining phonetic transcription, phonologic rules, and vocabulary for assigned set of words. System implementing this method has series-connected acoustic and lexical analyzers. Acoustic analyzer incorporates pre-processing unit, frequency spectrum analyzer, spectrum value storage buffer, weight coefficient and current acoustic condition calculators. Lexical analyzer has expected acoustic condition identifier, unit for comparison with standard, comparison estimate storage unit, control unit, optimal estimate selection and top marking unit, boundary top data base storage unit, check unit, probable top storage unit, local top data base storage unit, acoustic condition data base storage unit, word data base storage unit, lexical hypotheses shaper, lexical hypotheses storage unit, and output unit. EFFECT: improved accuracy and speed of interpreting fused Russian speech. 2 cl, 19 dwg

Description

Изобретение относится к области автоматики и вычислительной техники и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, роботами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др. The invention relates to the field of automation and computer technology and can be used in speech understanding systems, process equipment control systems, robots, computer tools, automatic voice translation, in help systems, etc.

Известен способ лексической интерпретации слитной речи, реализованный в системе автоматического понимания речи английского языка HEARSAY II [1]. A known method of lexical interpretation of continuous speech, implemented in the system of automatic understanding of English speech HEARSAY II [1].

Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала и по их совокупности вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют класс слогов, называемый слоготипом. После этого для каждого слоготипа при построении лексической гипотезы выявляют все слова, которые содержат ударный слог, принадлежащий этому классу слоготипов. Многосложные слова отвергаются, если они плохо согласуются со смежными слоготипами. Определение слоготипов основано на группировании фонем в фонетические классы. Произношение каждого слова, принадлежащего словарю произношений, преобразуется в последовательность слоготипов путем распределения всех фонем по их классам. Последовательности значений параметров неизвестного речевого высказывания определяют гипотезы о слоготипах, используемых для построения гипотез о словах. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Then, samples of this acoustic digitized signal are taken and, based on their totality, the current values of the parameters of the input speech signal are calculated, which transform the class of syllables, called the syllotype. After that, for each syllotype, when constructing the lexical hypothesis, all words that contain the stressed syllable belonging to this class of syllotypes are revealed. Polysyllabic words are rejected if they do not agree well with related syllotypes. The definition of syllables is based on the grouping of phonemes into phonetic classes. The pronunciation of each word that belongs to the pronunciation dictionary is converted into a sequence of syllotypes by distributing all phonemes by their classes. The sequence of parameter values of an unknown speech utterance defines hypotheses about the syllotypes used to construct hypotheses about words.

Особенностью известного способа является то, что вариации произношения слов учитывают путем применения широких классов фонем и включения вариантов произношения слов в словарь. Классы фонем предполагают, что каждый слоготип принадлежит только к одному классу слоготипов. A feature of the known method is that variations in the pronunciation of words are taken into account by applying wide classes of phonemes and including variants of pronunciation of words in the dictionary. Classes of phonemes suggest that each syllotype belongs to only one class of syllotypes.

Однако этот способ имеет недостатки: невозможно разделить слоги и фонемы строго на классы, так как существуют фонемы, которые можно отнести к двум соседним классам. Это приводит к тому, что различия между классами стираются и уменьшается четкость различия слоготипов, в результате чего снижается точность лексической интерпретации слитной речи. However, this method has drawbacks: it is impossible to separate syllables and phonemes strictly into classes, since there are phonemes that can be attributed to two neighboring classes. This leads to the fact that the differences between the classes are erased and the clarity of the difference between the syllabi is reduced, as a result of which the accuracy of the lexical interpretation of continuous speech is reduced.

Известен способ лексической интерпретации слитной речи особенность, которого состоит в непосредственном переходе от распознанных звуков в высказывании к произношениям слов с учетом изменения этих звуков при коартикуляции. Этот способ реализован в системе автоматического понимания речи DRAGON [2]. A known method of lexical interpretation of continuous speech is a feature, which consists in a direct transition from recognized sounds in the utterance to pronunciation of words, taking into account changes in these sounds during co-articulation. This method is implemented in the system of automatic speech understanding DRAGON [2].

Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала и по их совокупности вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют в фонему. После этого формируют последовательность фонем, и, используя сеть лексического декодирования, представляющую собой модель произнесения слова, строят гипотезы о возможных словах в высказывании. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, samples of this acoustic digitized signal are taken and, based on their totality, the current values of the parameters of the input speech signal are calculated, which are converted into a phoneme. After this, a sequence of phonemes is formed, and using a lexical decoding network, which is a model for pronouncing a word, hypotheses about possible words in a statement are built.

Для построения сети лексического декодирования берут каноническое произношение и применяют к нему фонологические правила, чтобы представить наиболее полную вероятную модель произношения слова. При использовании словаря канонического произношения (словаря подсетей слова) каждая подсеть слова заменяется до узла. В результате чего получаем сеть, в которой каждый узел представляет собой индивидуальную фонему. Возможные фонетические реализации слова формируются путем неоднократного применения фонологических правил к основному произношению. To build a network of lexical decoding, a canonical pronunciation is taken and phonological rules are applied to it to represent the most complete probable pronunciation model of a word. When using the canonical pronunciation dictionary (the word subnet dictionary), each word subnet is replaced to the node. As a result, we get a network in which each node is an individual phoneme. Possible phonetic realizations of the word are formed by repeatedly applying phonological rules to the main pronunciation.

Каждое правило обеспечивает альтернативное произношение некоторой последовательности фонем. Для каждого фонологического правила осуществляется просмотр всей сети, чтобы найти любые узлы, которые удовлетворяют условиям контекста. Все это приводит к снижению быстродействия и точности лексической интерпретации слитной речи. Each rule provides an alternative pronunciation for a sequence of phonemes. For each phonological rule, the entire network is scanned to find any nodes that satisfy the context. All this leads to a decrease in the speed and accuracy of the lexical interpretation of continuous speech.

Наиболее близким к заявляемому способу, взятому в качестве прототипа, является способ лексической интерпретации слитной речи, реализованный в системе CASPERS [3] . Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют в фонему. После этого формируют последовательность фонем, и, используя лексическую декодирующую схему, строят гипотезы о возможных словах в высказывании. При этом лексическая декодирующая схема представляет собой дерево, содержащее все ожидаемые фонетические реализации слов заданного словаря. Слова, имеющие одинаковые первые звуки, помещают в одной и той же начальной точке дерева. Далее, конец каждой ветви дерева, представляющей произношение слова, соединяют со всеми начальными формами слов, применяя при этом набор фонологических правил. В результате создается сеть фонетических решений. Closest to the claimed method, taken as a prototype, is the method of lexical interpretation of continuous speech, implemented in the CASPERS system [3]. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, take samples of this acoustic digitized signal, the totality of which calculates the current values of the parameters of the input speech signal, which are converted into a phoneme. After this, a sequence of phonemes is formed, and, using the lexical decoding scheme, hypotheses about possible words in the utterance are built. In this case, the lexical decoding scheme is a tree containing all the expected phonetic realizations of the words of a given dictionary. Words that have the same first sounds are placed at the same starting point in the tree. Further, the end of each branch of the tree representing the pronunciation of the word is connected with all the initial forms of words, using a set of phonological rules. As a result, a network of phonetic solutions is created.

Определение исходного выражения основано на поиске оптимальной последовательности фонем в сети фонетических решений. При этом для учета внутри словарных фонологических явлений, а также изменений окончаний слов из-за влияния предыдущих и последующих слов, ожидаемые фонетические реализации слова представляют путем расширения основного произношения несколькими альтернативными произношениями. Такое расширение словаря производят автоматически, с применением фонологических правил. The definition of the original expression is based on the search for the optimal sequence of phonemes in the network of phonetic solutions. Moreover, for accounting inside the dictionary phonological phenomena, as well as changes in word endings due to the influence of previous and subsequent words, the expected phonetic realizations of the word are represented by expanding the main pronunciation with several alternative pronunciations. Such a dictionary expansion is done automatically, using phonological rules.

Однако необходимо располагать некоторой эвристической стратегией сравнения для подбора слов, соответствующих фонетической записи неизвестного выражения. Для этого необходимо вводить меру штрафа при ошибочной идентификации, возможных случаев добавления или пропуска звуков, так как автоматический фонетический анализатор допускает много ошибок такого типа. Ошибки в фонетической транскрипции могут привести в конечном счете к неустранимому рассогласованию с правильным словом. However, it is necessary to have some heuristic comparison strategy for selecting words corresponding to the phonetic notation of an unknown expression. To do this, it is necessary to introduce a penalty measure for erroneous identification, possible cases of adding or skipping sounds, since the automatic phonetic analyzer makes many errors of this type. Errors in phonetic transcription can ultimately lead to fatal mismatch with the correct word.

Недостатками вышеперечисленных способов и прототипа являются низкое быстродействие, недостаточная точность лексической интерпретации слитной речи, что обусловлено следующим:
- фонетическая транскрипция, которая служит входной информацией для построения лексических гипотез, содержит ошибки замещения, лишние звуки и пропуски звуков, уменьшающие сходство интерпретируемого слова с правильной гипотезой и увеличивающее сходство интерпретируемого слова с ошибочными, особенно при большом объеме словаря;
- неоднократное применение фонологических правил к словарю произношений слов влечет за собой замедление процесса лексической интерпретации слитной речи;
- ожидаемая фонетическая реализация слова зависит от контекста предложения, в котором оно встречается. Границы слов в слитной речи полностью отсутствуют в транскрипции, так как акустические признаки их положений слабо выражены;
- положение границы между длительностями фонетических групп зависит от скорости речи, положения синтаксических границ, ударных слогов и локального фонетического окружения.
The disadvantages of the above methods and prototype are the low speed, lack of accuracy of the lexical interpretation of continuous speech, due to the following:
- phonetic transcription, which serves as input for constructing lexical hypotheses, contains substitution errors, extra sounds and missing sounds, reducing the similarity of the interpreted word to the correct hypothesis and increasing the similarity of the interpreted word to erroneous ones, especially when the dictionary is large;
- repeated application of phonological rules to the dictionary of pronunciation of words entails a slowdown in the process of lexical interpretation of continuous speech;
- the expected phonetic realization of a word depends on the context of the sentence in which it occurs. Word boundaries in continuous speech are completely absent in transcription, since the acoustic signs of their positions are poorly expressed;
- the position of the boundary between the durations of the phonetic groups depends on the speed of speech, the position of the syntactic boundaries, stressed syllables and the local phonetic environment.

При лексической интерпретации слитной речи возникает задача, суть которой состоит в том, что принятие решения на фонетическом уроне частично зависит от фактора более высокого уровня, которые не могут быть определены, пока не приняты решения на фонетическом уровне. Решение данной задачи сводится к необходимости принятия решения на фонетическом и более высоких уровнях одновременно. In the lexical interpretation of continuous speech, a problem arises, the essence of which is that making decisions on phonetic damage partially depends on a higher level factor that cannot be determined until decisions are made on the phonetic level. The solution to this problem boils down to the need to make decisions at the phonetic and higher levels simultaneously.

Описание предлагаемого способа лексической интерпретации слитной речи включает восемь фигур: фиг. 1 - общее представление гласной фонемы; фиг. 2 - орфографическое и фонетическое представление лексем, фиг. 3 - моделирующий граф; фиг. 4, 5 - граф альтернативных представлений; фиг. 6 - сеть альтернативных представлений; фиг. 7 - сеть лексического декодирования; фиг. 8 - пример структуры данных. The description of the proposed method of lexical interpretation of continuous speech includes eight figures: FIG. 1 is a general representation of the vowel phoneme; FIG. 2 - spelling and phonetic representation of tokens, FIG. 3 - modeling graph; FIG. 4, 5 - graph of alternative representations; FIG. 6 - a network of alternative representations; FIG. 7 - network lexical decoding; FIG. 8 is an example of a data structure.

Предлагаемый способ лексической интерпретации слитной речи состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Затем берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют текущие значения параметров входного речевого сигнала, определяющих текущее акустическое состояние. The proposed method of lexical interpretation of continuous speech consists in periodically uttering a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Then take samples of this acoustic digitized signal, the totality of which calculates the current values of the parameters of the input speech signal that determine the current acoustic state.

Способ отличается тем, что, минуя уровень фонемического преобразования, одновременно по вычисленным значениям параметров входного речевого сигнала, используя сеть лексического декодирования, строят гипотезы о возможном начале, продолжении, либо конце слов в речевом высказывании, и составляют наиболее вероятные последовательности эталонных слов, соответствующие произнесенному речевому высказыванию. При этом произносимые слова могут непрерывно следовать друг за другом в любом порядке, либо разделяться паузами, либо словами, не принадлежащими к заданному набору слов. Предлагаемая сеть лексического декодирования представляет собой интегрированную базу данных, содержащую орфографические представления заданного набора слов, ожидаемые акустические представления заданного набора слов в виде последовательностей эталонных значений параметров речевого сигнала, определяющих акустические состояния и объединяющую фонетическую транскрипцию, фонологические правила и лексику для заданного набора слов. The method is characterized in that, bypassing the level of the phonemic transformation, simultaneously using the calculated values of the parameters of the input speech signal, using the lexical decoding network, hypotheses are built about the possible beginning, continuation, or end of words in the speech utterance, and the most probable sequences of reference words corresponding to the spoken are made up speech utterance. In this case, the spoken words can continuously follow each other in any order, or can be separated by pauses, or by words that do not belong to a given set of words. The proposed lexical decoding network is an integrated database containing spelling representations of a given set of words, expected acoustic representations of a given set of words in the form of sequences of reference values of speech signal parameters that determine acoustic states and combines phonetic transcription, phonological rules and vocabulary for a given set of words.

Результатом осуществления изобретения является повышение точности лексической интерпретации слитной речи русского языка и обеспечение быстродействия, максимально приближенного к реальному времени. Результат достигается использованием сети лексического декодирования (СЛД), лексемы которого представлены в виде последовательности акустических состояний (АС), учитывающей внутри словарные фонетические явления, а также фонетические явления, возникающие на границах слов. The result of the invention is to increase the accuracy of the lexical interpretation of the unified speech of the Russian language and ensuring performance as close as possible to real time. The result is achieved using the lexical decoding network (SLD), the lexemes of which are presented as a sequence of acoustic states (AS), taking into account the dictionary phonetic phenomena, as well as phonetic phenomena that occur at word boundaries.

Акустическим состоянием предлагается называть набор значений параметров речевого сигнала (РС), характеризующий временной интервал, соизмеримый с периодом основного тона. Суть такого подхода заключается в представлении РС конечным числом заранее выбранных типов АС. Число различных АС должно быть выбрано таким образом, чтобы отразить все значимое разнообразие импульсных реакций вокального тракта в процессе речеобразования. It is proposed to call the acoustic state a set of values of the parameters of a speech signal (RS), which characterizes a time interval commensurate with the period of the fundamental tone. The essence of this approach is to present the RS with a finite number of pre-selected types of speakers. The number of different speakers should be chosen in such a way as to reflect the entire significant variety of impulse responses of the vocal tract during speech formation.

В основу акустического представления сигналов слитной речи положен принцип последовательного разложения фонем на аллофоны, а аллофонов - на составляющие их АС. Аллофоны легко различимы акустически, вследствие чего исчезает потребность применения правил на более низких уровнях. Они содержат информацию о границах между слогами и словами. Такую информацию предлагается получать посредством представления аллофонов в виде трех последовательных АС: начального, серединного и конечного. При этом тип серединного АС зависит только от типа выбранного аллофона, а тип начального или конечного - переходного АС зависит, кроме того, от типа предшествующей и последующей фонемы. The acoustic representation of continuous speech signals is based on the principle of sequential decomposition of phonemes into allophones, and allophones into their constituent speakers. Allophones are easily distinguishable acoustically, as a result of which the need to apply the rules at lower levels disappears. They contain information about the boundaries between syllables and words. It is proposed that such information be obtained by representing allophones in the form of three consecutive speakers: initial, middle and final. In this case, the type of middle speaker depends only on the type of allophone selected, and the type of initial or final transitional speaker depends, moreover, on the type of previous and subsequent phonemes.

Возможна различная степень детальности разложения каждой фонемы на аллофоны, а аллофонов - на АС. Для примера представим один из возможных вариантов разложения, который является достаточным для обеспечения необходимого многообразия реализаций каждой фонемы и аллофона при лексической интерпретации слитной речи русского языка. A different degree of detail of the decomposition of each phoneme into allophones, and of allophones into AS is possible. As an example, we present one of the possible decomposition options, which is sufficient to provide the necessary variety of realizations of each phoneme and allophone in the lexical interpretation of the coherent speech of the Russian language.

Из русских гласных фонем выбираем множество аллофонов твердых - {А, О, У, Э, И, Ы} и мягких -

Figure 00000002
а также соответствующие им множества назализованных
Figure 00000003

Для русских согласных необходимо различать губное, зубное, альвеолярное, велярное и латеральное место образования. Таким образом, для описания переходных (начального или конечного) интервалов РС каждого аллофона гласной необходимо иметь до 5-ти различных типов АС. Общее представление каждой гласной фонемы в виде набора АС, необходимых для акустического описания слитной речи русского языка, представлено фиг. 1 на примере гласной /А/. Аналогичным образом предлагается определять три временных интервала РС (начальный, серединный и конечный) для описания согласных звуков.Of the Russian vowel phonemes, we choose a lot of allophones hard - {A, O, Y, E, I, S} and soft -
Figure 00000002
as well as the corresponding sets of nasalized
Figure 00000003

For Russian consonants, it is necessary to distinguish between the labial, dental, alveolar, velar and lateral places of formation. Thus, to describe the transition (initial or final) MS intervals of each vowel allophone, it is necessary to have up to 5 different types of speakers. A general representation of each vowel phoneme in the form of a set of speakers necessary for the acoustic description of the continuous speech of the Russian language is presented in FIG. 1 by the example of the vowel / A /. Similarly, it is proposed to define three time intervals of the RS (initial, middle and final) for the description of consonants.

Представление русских фонем в виде АС допускает значительное изменение их количества, которое обусловлено эффектом коартикуляции с предшествующей и последующей фонемами. The representation of Russian phonemes in the form of AS allows a significant change in their number, which is due to the effect of co-articulation with the previous and subsequent phonemes.

Пусть V q φ - АС, необходимое для определения q-го интервала РС φ_ой фонемы; ωφ-1φ+1 - предшествующая и последующая фонемы;

Figure 00000004
множества фонем m - го и n - го типов, где q - индекс, определяющий тип АС, q = 1, 2, 3 (q = 1 - начальное АС; q = 2 - серединное АС; q = 3 - конечное АС); φ - индекс, определяющий фонему φ = 1, 2, ..., Ф ; m - индекс, определяющий множество предшествующих фонем, m = 1, 2, ..., M; n - индекс, определяющий множество последующих фонем, n = 1, 2, ..., N. Тогда в общем случае АС можно представить в виде многозначной функции:
Figure 00000005

Формула (1) приобретает конкретный вид для каждой фонемы. Проиллюстрируем это на примере фонемы /А/ для трех АС. Для начального АС:
Figure 00000006

где: Ω1 = {П, Б, Ф, В, Л} - множество твердых губных и боковых согласных фонем, Ω2 = {Т, Д, С, З, Р, Ц, Ч, Ж, К, Г, Х} - множество твердых зубных, альвеолярных и небных согласных фонем, Ω3 = {П', Б', Ф', В'} - множество мягких губных согласных, Ω4 = { Т', Д', С', З', Р', Ш', Ч'} - множество мягких зубных и альвеолярных согласных фонем, Ω5 = {К', Г', Х'} - множество мягких небных согласных фонем, Ω6 = {Л'} - единичное множество мягких боковых согласных фонем, Ω7 = {М} - единичное множество твердых губных носовых согласных фонем, Ω8 = { Н} - единичное множество твердых зубных носовых согласных фонем, Ω9 = { М'} - единичное множество мягких губных носовых согласных фонем, Ω10 = { Н'} - единичное множество мягких зубных носовых согласных фонем, Ω11 = {А, О, У, Э, И, Ы, #} - множество гласных фонем и паузы.Let V q φ - AS required to determine the qth interval of the PC φ_th phoneme; ω φ-1 , ω φ + 1 - previous and subsequent phonemes;
Figure 00000004
sets of phonemes of the mth and nth types, where q is the index defining the type of AS, q = 1, 2, 3 (q = 1 is the initial AS; q = 2 is the middle AS; q = 3 is the final AS); φ is the index defining the phoneme φ = 1, 2, ..., Ф; m is the index defining the set of previous phonemes, m = 1, 2, ..., M; n is the index defining the set of subsequent phonemes, n = 1, 2, ..., N. Then, in the general case, AS can be represented as a multi-valued function:
Figure 00000005

Formula (1) takes on a specific form for each phoneme. We illustrate this with the phoneme / A / for three speakers as an example. For the initial speaker:
Figure 00000006

where: Ω 1 = {П, Б, Ф, В, Л} is the set of solid labial and lateral consonant phonemes, Ω 2 = {Т, Д, С, З, Р, Ц, Ч, Ж, К, Г, Х } - the set of hard dental, alveolar and palatine consonant phonemes, Ω 3 = {P ', B', Ф ', В'} - the set of soft labial consonants, Ω 4 = {T ', D', C ', Z', P ', W', H '} - the set of soft dental and alveolar consonant phonemes, Ω 5 = {K', G ', X'} - the set of soft palatine consonant phonemes, Ω 6 = {L '} - the unit set of soft lateral consonant phonemes, Ω 7 = {M} is the unit set of hard labial nasal consonants, Ω 8 = {H} is the unit set of solid dental nasal consonants phonemes, Ω 9 = {M '} is the unit set of soft labial nasal consonant phonemes, Ω 10 = {H'} is the unit set of soft labial nasal consonant phonemes, Ω 11 = {A, O, Y, E, I, S , #} - a lot of vowel phonemes and pauses.

Для серединного АС фонемы /А/ формула (1) имеет вид:

Figure 00000007

где:
Ω12 = {А, О, У, Э, И, Ы, Л, Р, В, З, Ж, Б, Д, П, Т, Г, Ф, К, С, Ш, Х, Ц} - множество твердых неносовых согласных и гласных фонем, Ω13 = {Л', Р', В', З', Ж', Б', Д', Г', П', Т', К', Ф', С', Ш', Х', Ч'} - множество мягких согласных фонем, Ω14 = {М', Н'} - множество мягких носовых согласных фонем, Ω15 = {М, Н} - множество твердых носовых согласных.For the middle speaker phoneme / A / formula (1) has the form:
Figure 00000007

Where:
Ω 12 = {A, O, Y, E, I, S, L, P, B, H, G, B, D, R, T, G, F, K, C, W, X, C} - the set solid non-nasal consonants and vowel phonemes, Ω 13 = {L ', P', B ', Z', F ', B', D ', G', P ', T', K ', F', C ', W ', X', H '} - the set of soft consonant phonemes, Ω 14 = {M', H '} - the set of soft nasal consonant phonemes, Ω 15 = {M, H} - the set of hard nasal consonants.

Для конечного АС фонемы /А/ формула (1) имеет вид:

Figure 00000008

где
Ω1 - Ω10 те же, что и в формуле (2), а множества Ω16 - Ω20 являются единичными и содержат соответственно гласные - {А, О, У, Э, И, Ы}.For the final AS phoneme / A / formula (1) has the form:
Figure 00000008

Where
Ω 1 - Ω 10 are the same as in formula (2), and the sets Ω 16 - Ω 20 are single and contain respectively vowels - {A, O, Y, E, I, S}.

Аналогично формулам (2), (3), (4) для каждой фонемы могут быть записаны соответствующие выражения с учетом правил их аллофонической изменчивости. Similarly to formulas (2), (3), (4), for each phoneme, corresponding expressions can be written taking into account the rules of their allophonic variability.

На основе вышеизложенного формируется СЛД. Формирование СЛД происходит путем выполнения последовательности операций: создание базы данных слов; представление речевого высказывания как последовательности слов, определение акустического состояния как набор значений параметров временного интервала РС; создание базы данных эталонов акустических состояний для фонетического и фонологического описания русских слов; представление слова как последовательности акустических состояний. Суть этих операций состоит в следующем. Based on the foregoing, SLD is formed. The formation of SLD occurs by performing a sequence of operations: creating a database of words; presentation of the speech utterance as a sequence of words, determination of the acoustic state as a set of parameter values for the time interval of the MS; creation of a database of standards of acoustic states for the phonetic and phonological description of Russian words; representation of a word as a sequence of acoustic states. The essence of these operations is as follows.

1) Создают базу данных слов, необходимую для речевого общения, содержащую номер слова - l, для которого определяются: орфографическое представление, варианты произношений с соответствующими номерами - j. 1) Create a database of words necessary for verbal communication, containing the number of the word - l, for which are defined: spelling representation, pronunciation options with the corresponding numbers - j.

2) Речевое высказывание представляют последовательностью слов, допускающей непрерывное следование произносимых слов друг за другом в любом порядке, либо с разделением паузами, либо с разделением словами, не принадлежащими к заданному набору (базе данных) слов:
W = C j l,1 ,...,C j l,i ,...,C j l,I (5)
где:
W - речевое высказывание; C - слово;
l - номер слова в базе данных слов l = 0, 1, 2, ..., L;
j - номер произношения l-го слова, j = 0, 1, 2, ..., J;
i - порядковый номер слова в высказывании, i = 1, 2, 3, ..., I;
3) Определяют акустическое состояние как набор значений параметров временного интервала РС:
V = (x1, x2, x3, ...xR) + Q, (6)
где, например: x1= F0 - частота основного тона; x2=A0 - амплитуда основного тона; x2=F1, x4=F2, где F1, F2 - частоты формант; x5=A1, x6=A2 - амплитуды первой и второй формант соответственно; x7=B1, x8=B2 - ширина пропускания первой и второй формант соответственно; x9=Z - число переходов через ноль; x10 - темп произнесения и т.д.; Q - шум.
2) A speech utterance is represented by a sequence of words allowing continuous spoken words to be spoken one after another in any order, either with separation by pauses, or with separation of words that do not belong to a given set (database) of words:
W = c j l, 1 , ..., C j l, i , ..., C j l, I (5)
Where:
W is a speech utterance; C is the word;
l is the word number in the database of words l = 0, 1, 2, ..., L;
j is the pronunciation number of the lth word, j = 0, 1, 2, ..., J;
i is the serial number of the word in the statement, i = 1, 2, 3, ..., I;
3) Determine the acoustic state as a set of values of the parameters of the time interval of the PC:
V = (x 1 , x 2 , x 3 , ... x R ) + Q, (6)
where, for example: x 1 = F 0 is the frequency of the fundamental tone; x 2 = A 0 is the amplitude of the fundamental tone; x 2 = F 1 , x 4 = F 2 , where F 1 , F 2 are the frequencies of the formants; x 5 = A 1 , x 6 = A 2 are the amplitudes of the first and second formants, respectively; x 7 = B 1 , x 8 = B 2 - transmission bandwidth of the first and second formant, respectively; x 9 = Z is the number of transitions through zero; x 10 - rate of pronunciation, etc .; Q is the noise.

4) Создают базу данных эталонов акустических состояний, содержащую номер АС, имя АС с набором значений параметров временного интервала речевого сигнала. 4) Create a database of standards of acoustic states containing the number of speakers, the name of the speaker with a set of parameter values for the time interval of the speech signal.

5) Представляют слова, как последовательность акустических состояний:

Figure 00000009

где
0≤h≤H, 0≤l≤L, 1≤k(j)≤K, 0≤j≤J, 1≤i≤I, (8)
C - слово;
V - акустическое состояние;
i - порядковый номер слова в высказывании, i = 1, 2, 3, ...,I;
h - номер АС в базе данных эталонов АС, h = 0, 1, 2, ..., H;
l - номер слова в базе данных слов, l = 0, 1, 2, ..., L;
j - номер произношения l-го слова, j = 0, 1, 2, ..., J;
b - тип начального АС, выбираемый в соответствии с формулами (1), (2) и в соответствии с произношением j для l-го слова;
e - тип конечного АС, выбираемый в соответствии с формулами (1), (4) и в соответствии с произношением j для l-го слова;
q - индекс, определяющий тип АС, выбираемый в соответствии с формулами (1) - (4) и в соответствии с произношением j для l-го слова; q = 1, 2, 3;
k - число акустических состояний в слове, изменяющееся в зависимости от j для C j l , k = 1, 2, 3, ..., K;
Если i=1, то речевое высказывание состоит из одного слова. Тогда:
W = C j l,1 ; (9)
Figure 00000010

где
V b h,l,1 - акустическое состояние, связанное с описанием перехода от паузы к началу первой фонемы C j l,1 - го слова;
Figure 00000011
последовательность акустических состояний C j l,1 - го слова;
V e h,l,K - акустическое состояние, связанное с описанием перехода от конца последней фонемы C j l,1 -го слова к паузе;
Если 1< i≤l, то допустимые V b h,l,1 - начальные и V e h,l,K - конечные АС определяют с учетом всех возможных (грамматически правильных и неправильных) последовательностей слов из базы данных слов. При этом для определения допустимых V b h,l,1 - начальных АС учитывают фонологические явления, которые могут образоваться из-за влияния всех возможных "предыдущих" слов на C j l,i - ое слово. Для определения допустимых V e h,l,K - конечных АС учитывают фонологические явления, которые могут образоваться из-за влияния всех возможных "последующих" на C j l,i - ое слово.5) Represent words as a sequence of acoustic states:
Figure 00000009

Where
0≤h≤H, 0≤l≤L, 1≤k (j) ≤K, 0≤j≤J, 1≤i≤I, (8)
C is the word;
V is the acoustic state;
i is the serial number of the word in the statement, i = 1, 2, 3, ..., I;
h is the number of speakers in the database of speaker standards, h = 0, 1, 2, ..., H;
l is the word number in the database of words, l = 0, 1, 2, ..., L;
j is the pronunciation number of the lth word, j = 0, 1, 2, ..., J;
b - the type of initial speaker, selected in accordance with formulas (1), (2) and in accordance with the pronunciation of j for the l-th word;
e is the type of final speaker selected in accordance with formulas (1), (4) and in accordance with the pronunciation of j for the lth word;
q is the index defining the type of speaker selected in accordance with formulas (1) - (4) and in accordance with the pronunciation of j for the l-th word; q is 1, 2, 3;
k is the number of acoustic states in the word, which varies depending on j for C j l , k = 1, 2, 3, ..., K;
If i = 1, then the speech utterance consists of one word. Then:
W = c j l, 1 ; (nine)
Figure 00000010

Where
V b h, l, 1 - acoustic state associated with the description of the transition from pause to the beginning of the first phoneme C j l, 1 - th word;
Figure 00000011
sequence of acoustic states C j l, 1 - th word;
V e h, l, K is the acoustic state associated with the description of the transition from the end of the last phoneme C j l, 1 words to pause;
If 1 <i≤l, then admissible V b h, l, 1 - initial and V e h, l, K - final speakers are determined taking into account all possible (grammatically correct and incorrect) sequences of words from the database of words. Moreover, to determine the permissible V b h, l, 1 - initial speakers take into account phonological phenomena that can be formed due to the influence of all possible “previous” words on C j l, i - th word. To determine the permissible V e h, l, K - final speakers take into account phonological phenomena that can be formed due to the influence of all possible “subsequent” ones on C j l, i - th word.

Таким образом, каждое слово содержит три участка в речевом высказывании: начальный, серединный и конечный. При этом для фиксированного значения i=1 речевое высказывание состоит из одного слова и содержит начальный и конечный участки речевого высказывания, связанные с паузой, а при 1<i≤I слово C j l,i содержит начальный и конечный участки речевого высказывания, связанные либо с "предыдущим" и "последующим" словом, либо с паузами соответственно.Thus, each word contains three sections in a speech utterance: initial, middle and final. Moreover, for a fixed value i = 1, the speech utterance consists of one word and contains the start and end portions of the speech utterance associated with a pause, and for 1 <i≤I the word C j l, i contains the initial and final sections of the speech utterance associated with either the “previous” and “subsequent” words, or with pauses, respectively.

6) Производят описания переходов из акустических состояний, используя набор фонетических и фонологических правил русского языка и п.1-п.5. 6) Produce descriptions of transitions from acoustic states using a set of phonetic and phonological rules of the Russian language and p.1-p.5.

7) Создают сеть лексического декодирования с учетом п.5, п.6, с последующим формированием базы данных локальных вершин и базы данных граничных вершин. 7) Create a network of lexical decoding taking into account clause 5, clause 6, with the subsequent formation of a database of local vertices and a database of boundary vertices.

Этапы построения сети лексического декодирования представлены шестью фигурами: фиг. 2 - орфографическое и фонемическое представление лексем, фиг. 3 - моделирующий граф, вершинами которого являются аллофоны, а дугами - указатели на следующие возможные аллофоны; фиг. 4, фиг. 5 - граф альтернативных представлений, вершинами которого являются АС, а дугами - указатели на следующие возможные АС; фиг. 6 - сеть альтернативных представлений, вершинами которой являются АС, а дугами - указатели на следующие возможные АС; фиг. 7 - сеть лексического декодирования, вершинами которой являются АС, а дугами - указатели на следующие возможные акустические состояния. The stages of building a lexical decoding network are represented by six figures: FIG. 2 - spelling and phonemic representation of tokens, FIG. 3 - a modeling graph whose vertices are allophones, and arcs are pointers to the following possible allophones; FIG. 4, FIG. 5 is a graph of alternative representations, the vertices of which are AS, and the arcs are pointers to the following possible AS; FIG. 6 - a network of alternative representations, the vertices of which are AS, and the arcs are pointers to the following possible AS; FIG. 7 - a network of lexical decoding, the vertices of which are speakers, and the arcs are pointers to the following possible acoustic states.

Этапы построения сети лексического декодирования представлены на примере выражений, применимых для управления движением захвата манипулятора влево и вправо, а также указаний вывода программы захвата. Например, "Выведи захват влево", Вывод захвата вправо", "Показать программу захвата", "Покажи программу вывода захвата" и т.д. The stages of constructing a lexical decoding network are presented using an example of expressions applicable to control the capture motion of the manipulator left and right, as well as indications of the output of the capture program. For example, “Take capture to the left,” Output capture to the right, “Show capture program,” “Show capture output program,” etc.

На первом этапе (фиг. 2) определяют необходимый словарь для речевого общения. Определяют орфографическое и фонемическое представление каждой лексемы. На втором этапе (фиг. 3) для каждой лексемы с возможными окончаниями строят моделирующий граф ожидаемых аллофонических представлений, вершинами которого являются аллофоны, а дугами указатели на следующие возможные аллофоны. На фиг. 3 прямоугольниками обозначены вершины с именами аллофонов, а цифрами - номера лексем, соответствующие номерам лексем из фиг. 2. После этого последовательность аллофонов замещают последовательностью акустических состояний (фиг. 4, фиг. 5) для всех лексических единиц применяемого словаря с возможными окончаниями и строят их в виде дерева решений. При этом слова, имеющие одинаковые первые звуки, помещают в одной и той же начальной вершине дерева. Например, слова "покажи" и "программа" имеют первый общий звук - "п". Далее все возможные окончания каждого слова соединяются с корнем дерева и с помощью фонологических правил строится сеть альтернативных представлений для всех возможных (грамматически правильных и неправильных) последовательностей слов из словаря. Фрагмент сети альтернативных представлений изображен на фиг. 6. At the first stage (Fig. 2) determine the necessary dictionary for verbal communication. The spelling and phonemic representation of each token is determined. At the second stage (Fig. 3), for each token with possible endings, a modeling graph of the expected allophonic representations is constructed, the vertices of which are allophones, and the arcs indicate the next possible allophones. In FIG. 3, rectangles indicate the vertices with the names of allophones, and the numbers indicate the numbers of tokens corresponding to the numbers of tokens from FIG. 2. After this, the sequence of allophones is replaced by a sequence of acoustic states (Fig. 4, Fig. 5) for all lexical units of the dictionary used with possible endings and build them in the form of a decision tree. In this case, words having the same first sounds are placed in the same initial vertex of the tree. For example, the words “show” and “program” have the first common sound - “p”. Further, all possible endings of each word are connected to the root of the tree and, using phonological rules, a network of alternative representations is constructed for all possible (grammatically correct and incorrect) sequences of words from the dictionary. A fragment of a network of alternative representations is depicted in FIG. 6.

В результате применения фонологических правил образуются локальные и граничные вершины. As a result of applying phonological rules, local and boundary vertices are formed.

Локальной вершиной следует считать объект, связанный с АС типа V q h,l,k(j) . При этом каждой локальной вершине, в качестве примера, присваивается: номер вершины; номер АС в базе данных АС; двоичный код границы; двоичный код паузы; массив (список) слов, принадлежащий АС-ю данной вершины с признаком конца каждого из списка слов; массив (список) последующих возможных вершин, указатель на базу данных граничных вершин.The local vertex should be considered an object associated with AS type V q h, l, k (j) . Moreover, each local vertex, as an example, is assigned: the number of the vertex; speaker number in the speaker database; binary border code; binary pause code; an array (list) of words belonging to the AS of a given vertex with a sign of the end of each of the list of words; an array (list) of subsequent possible vertices, a pointer to a database of boundary vertices.

Граничной вершиной следует считать локальную вершину, связанную с переходными АС типа V b h,l,1 и V e h,l,K сформированными в начале и конце каждого слова соответственно, у которой двоичный код границы не равен нулю. При этом граничной вершине не присваивается массив (список) слов, связанный с АС-ем данной вершины.The boundary vertex should be considered the local vertex associated with transitional speakers of type V b h, l, 1 and v e h, l, K formed at the beginning and end of each word, respectively, in which the binary boundary code is not equal to zero. In this case, the boundary vertex is not assigned an array (list) of words associated with the AS of this vertex.

На завершающем этапе построения СЛД корень сети альтернативных представлений соединяется со всеми граничными вершинами. At the final stage of building an SLD, the root of the network of alternative representations is connected to all boundary vertices.

Таким образом, получают СЛД, которая представляет собой словарь со встроенным фонетическим транскриптором, правилами фонологии и лексикой для заданного набора слов. Фрагмент сети лексического декодирования представлен на фиг. 7. На фиг. 4 - фиг. 7 прямоугольниками обозначены вершины с именами АС, а цифрами - разрывы соединений. Thus, they get SLD, which is a dictionary with a built-in phonetic transcriptor, phonology rules and vocabulary for a given set of words. A fragment of a lexical decoding network is shown in FIG. 7. In FIG. 4 - FIG. 7 rectangles indicate the vertices with the names of the speakers, and the numbers indicate breaks in the connections.

В соответствии с фиг. 7 начальная (корневая) вершина представляет собой паузу. Каждая вершина в столбце СЛД представляет собой объект, связанный с одним участком квантованного высказывания (фразы). Каждая вершина во втором столбце содержит АС, связанное со следующими возможными состояниями и т.д. Каждая вершина допускает переход в саму себя и минуя себя (на фиг. 7 это не показано, чтобы не загромождать схему). Это приводит к тому, что две и более вершины могут быть связаны с одним и тем же АС. Таким образом, в процессе выделения V могут возникнуть дополнительные АС, в то время как отсутствие АС приводит к существенным проблемам. Поэтому потенциально отсутствующие АС должны рассматриваться как дополнительные в процессе создания СЛД. In accordance with FIG. 7 the initial (root) vertex is a pause. Each vertex in the SLD column is an object associated with one section of a quantized statement (phrase). Each vertex in the second column contains ASs associated with the following possible states, etc. Each vertex admits a transition into itself and bypassing itself (in Fig. 7 this is not shown so as not to clutter up the circuit). This leads to the fact that two or more vertices can be associated with the same AS. Thus, in the process of isolating V, additional ASs may arise, while the absence of ASs leads to significant problems. Therefore, potentially absent speakers should be considered as additional in the process of creating an SLD.

Такая сеть явным образом учитывает коартикуляционные эффекты, возникающие как внутри слов, так и на их границах, и позволяет, минуя уровень фонетического преобразования, формировать возможные варианты лексической интерпретации входного высказывания слитной речи. Such a network explicitly takes into account the co-articulation effects that occur both inside words and at their borders, and allows, bypassing the level of phonetic transformation, to form possible variants of the lexical interpretation of the input statement of continuous speech.

Для определения возможных вариантов лексической интерпретации исходного выражения необходимо отыскать оптимальную последовательность вершин (путь) в СЛД. СЛД использует такое представление словаря, при котором объединены общие части различных слов. Поэтому процедура просмотра всего словаря легко реализуема с вычислительной точки зрения и не требует отдельного рассмотрения каждого слова. При этом акустико-фонетические знания проявляются в удобной и доступной форме, упрощающей процесс оптимизации выбора наилучшего пути. To determine the possible variants of the lexical interpretation of the original expression, it is necessary to find the optimal sequence of vertices (path) in the SLD. SLD uses a vocabulary representation that combines the common parts of different words. Therefore, the procedure for viewing the entire dictionary is easily implemented from a computational point of view and does not require a separate consideration of each word. At the same time, acoustic-phonetic knowledge is manifested in a convenient and accessible form that simplifies the process of optimizing the choice of the best path.

На основе вышеизложенного создают базу данных локальных и базу данных граничных вершин. При этом каждой вершине присваивают весовой коэффициент η исходя из АС. Далее производят классификацию вершин по возрастанию весового коэффициента η (с соответствующей перенумерацией). В итоге, номер граничной вершины в базе данных граничных вершин (БДГВ) определяет номер вершины в базе данных локальных вершин (БДЛВ). Пример структуры данных, применяемый в БДЛВ представлен фиг. 8. Based on the foregoing, a database of local and a database of boundary vertices is created. In this case, each vertex is assigned a weight coefficient η based on the AS. Next, vertices are classified by increasing the weight coefficient η (with the corresponding renumbering). As a result, the number of the boundary vertex in the database of boundary vertices (BDGV) determines the number of vertices in the database of local vertices (BDLV). An example of the data structure used in the WLD is shown in FIG. eight.

Предлагаемый способ лексической интерпретации слитной речи, основанный на применении СЛД, реализует последовательное сокращение исходного множества эталонов АС и слов по критериям акустического подобия. The proposed method of lexical interpretation of continuous speech, based on the use of SLD, implements a sequential reduction of the initial set of speakers and words according to the criteria of acoustic similarity.

Суть его состоит в следующем. Произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют весовой коэффициент η . По этому коэффициенту определяют вероятную область поиска вершин в БДЛВ. Одновременно по полученной совокупности выборок вычисляют текущее АС - VТ. Находят вершины в БДЛВ с эталонными АС - VЭ, подобными VТ. Если VТ не подобна эталонным АС ожидаемых вершин в БДЛВ, то производится коррекция области поиска ожидаемых вершин в БДЛВ. Если не удается найти эталонные АС ожидаемых вершин в БДЛВ подобные VТ, то поиск производят в БДГВ. Если вершины с эталонными АС, подобными VТ, обнаружены, то по оценкам меры близости текущего АС и ожидаемых эталонов, формируют гипотезы о словах, акустически схожими своими начальными АС на текущее. После этого из множества сформировавшихся к этому моменту гипотез о словах отбирают эталоны, акустически схожие своими следующими эталонными АС-ми на следующее текущее АС. При этом производят формирование последовательностей слов с учетом чередования границ, составляющих их слов согласно с (7), (10). Если не удается найти эталонные АС подобные VТ, ни в БДЛВ, ни в БДГВ, то производят добавление соответствующих меток в формируемые последовательности слов, которые свидетельствуют о не найденных АС и соответствующих им слов. Этот процесс продолжается до тех пор, пока не будет обнаружена межфразовая пауза. Полученные к этому моменту последовательности слов составляют набор возможных лексических гипотез или вариантов лексической интерпретации входного высказывания. Этот набор лексических гипотез может быть подвергнут дальнейшему анализу по грамматическим, синтаксическим, семантическим и прагматическим критериям.Its essence is as follows. A speech utterance is uttered, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, take samples of this acoustic digitized signal, the totality of which calculate the weight coefficient η. This coefficient determines the probable search area for vertices in the BDLV. At the same time, the current AS - V T is calculated from the obtained set of samples. Find a vertex in BDLV with reference AC - V e, V T like. If V T is not similar to the reference AS of the expected vertices in the BDLF, then the correction of the search area of the expected vertices in the BDLF is performed. If it is not possible to find the reference speakers of the expected vertices in the BDLVs like V T , then the search is performed in the BDGVs. If vertices with reference speakers similar to V T are found, then according to estimates of the proximity measure of the current speaker and expected standards, hypotheses are formed about words that are acoustically similar in their initial speakers to the current one. After that, from the set of hypotheses about words that have been formed at this point, samples are selected that are acoustically similar in their next reference speakers to the next current speaker. In this case, sequences of words are formed taking into account the alternation of boundaries that make up their words in accordance with (7), (10). If it is not possible to find reference speakers like V T , neither in BDLV, nor in BDGV, then add the corresponding labels in the generated word sequences, which indicate not found speakers and their corresponding words. This process continues until an interphrase pause is detected. The sequences of words obtained at this point constitute a set of possible lexical hypotheses or variants of the lexical interpretation of the input statement. This set of lexical hypotheses can be subjected to further analysis according to grammatical, syntactic, semantic and pragmatic criteria.

Описание системы лексической интерпретации слитной речи (СЛИСР) русского языка, реализующей предлагаемый способ включает в себя одиннадцать фигур; фиг. 9 - структурная схема системы, фиг. 10 - структурная схема блока акустического анализатора, фиг. 11 - структурная схема блока лексического анализатора, фиг. 12 - фиг. 19 - блок-схема алгоритма работы СЛИСР. Description of the system of lexical interpretation of continuous speech (SLISR) of the Russian language that implements the proposed method includes eleven figures; FIG. 9 is a structural diagram of a system, FIG. 10 is a block diagram of an acoustic analyzer unit; FIG. 11 is a block diagram of a lexical analyzer block; FIG. 12 - FIG. 19 is a flowchart of the SLISR operation algorithm.

Система лексической интерпретации слитной речи, использующая СЛД и структуру данных, изображенную на фиг. 8, представлена на фиг. 9. Она состоит из акустического анализатора, представленного блоком 1, и лексического анализатора, представленного блоком 2. Система позволяет формировать варианты возможных последовательностей слов, соответствующие произнесенному высказыванию на основе информации о последовательности выявленных акустических состояний. The lexical interpretation system of continuous speech using the SLD and the data structure shown in FIG. 8 is shown in FIG. 9. It consists of an acoustic analyzer represented by block 1 and a lexical analyzer represented by block 2. The system allows one to form variants of possible sequences of words corresponding to the uttered statement based on information about the sequence of detected acoustic states.

Блок 1 предназначен для определения акустических состояний в звуковых сигналах и содержит два входа и два выхода. Block 1 is designed to determine acoustic states in sound signals and contains two inputs and two outputs.

Блок 2 предназначен для определения слов из заданного словаря акустически схожих с произнесенными и содержит два входа и два выхода. Вход 1 блока 1 соединен с микрофоном, а вход 2 соединен с выходом 2 блока 2. Выходы 1 и 2 блока 1 соединены со входами 1 и 2 блока 2 соответственно. С выхода 1 блока 2 получают искомый результат. Block 2 is designed to determine words from a given dictionary acoustically similar to spoken and contains two inputs and two outputs. The input 1 of block 1 is connected to the microphone, and the input 2 is connected to the output 2 of block 2. The outputs 1 and 2 of block 1 are connected to the inputs 1 and 2 of block 2, respectively. From the output 1 of block 2 get the desired result.

Блок 1, структурная схема которого представлена на фиг. 10, содержит: блок 3 - предварительной обработки, блок 4 - частотный анализатор спектра, блок 5 - буфер памяти значений спектра, блок 6 - вычислитель весового коэффициента η , блок 7 - вычислитель текущего акустического состояния VТ.Block 1, the block diagram of which is shown in FIG. 10, contains: block 3 - preprocessing, block 4 - frequency spectrum analyzer, block 5 - buffer memory values of the spectrum, block 6 - calculator weight coefficient η, block 7 - calculator of the current acoustic state V T.

Блок 2, структурная схема которого представлена на фиг. 11, содержит: блок 8 - определитель ожидаемых акустических состояний, блок 9 - сравнения с эталоном, блок 10 - блок памяти 1, блок 11 - блок управления, блок 12 - блок выбора оптимальной оценки и маркировки вершин, блок 13 - блок хранения базы данных граничных вершин, блок 14 - блок проверки, блок 15 - блок памяти 2, блок 16 - блок хранения базы данных локальных вершин, блок 17 - блок хранения базы данных акустических состояний, блок 18 - блок хранения базы данных слов, блок 19 - формирователь лексических гипотез, блок 20 - блок памяти 3, блок 21 - блок вывода. Block 2, the block diagram of which is shown in FIG. 11, contains: block 8 - determinant of expected acoustic states, block 9 - comparison with the standard, block 10 - memory block 1, block 11 - control unit, block 12 - block for selecting the optimal assessment and marking of vertices, block 13 - database storage block boundary vertices, block 14 — check block, block 15 — memory block 2, block 16 — block of storage of the database of local vertices, block 17 — block of storage of the database of acoustic states, block 18 — block of storage of the database of words, block 19 — lexical shaper hypotheses, block 20 - memory block 3, block 21 - output block.

Блок 3 предназначен для оцифровки и фильтрации акустических сигналов. Block 3 is designed to digitize and filter acoustic signals.

Блок 8 предназначен для приема данных с блока 6, блока 11 и блока 16, организации запросов данных в блоках 13 и 16, а также выдачи данных, связанных с определением следующих возможных вершин с их номерами и параметрами АС. Block 8 is intended for receiving data from block 6, block 11 and block 16, organizing data requests in blocks 13 and 16, as well as issuing data related to the determination of the following possible vertices with their numbers and AC parameters.

Блок 9 предназначен для вычисления оценки степени совпадения между акустическими характеристиками ожидаемых эталонов АС и текущего участка речевого сигнала. Block 9 is designed to calculate an estimate of the degree of coincidence between the acoustic characteristics of the expected AC standards and the current portion of the speech signal.

Блок 10 предназначен для временной записи, хранения, чтения и передачи оценок степени совпадения между акустическими характеристиками ожидаемых эталонов АС и текущего участка речевого сигнала, а также вершин, к которым они принадлежат. Block 10 is intended for temporary recording, storage, reading and transmission of estimates of the degree of coincidence between the acoustic characteristics of the expected AC standards and the current section of the speech signal, as well as the vertices to which they belong.

Блок 11 предназначен для формирования запросов данных о вершинах с помощью блоков 8, 12, 14, 15, 19, а также управления блоками 10, 15, 20. Block 11 is designed to generate data requests about vertices using blocks 8, 12, 14, 15, 19, as well as control blocks 10, 15, 20.

Блок 12 предназначен для выбора наилучшей оценки степени совпадения, с соответствующими номерами вершин, имеющихся блоке 10, а также маркирования вершин. Block 12 is designed to select the best estimate of the degree of coincidence, with the corresponding vertex numbers available to block 10, as well as marking the vertices.

Блок 14 предназначен для проверки вершин на содержание не нулевых значений двоичных кодов "паузы" и "границы". Block 14 is designed to check the peaks for the content of non-zero values of binary codes "pause" and "border".

Блок 15 предназначен для временной записи, хранения, чтения и передачи возможных вершин с акустическими состояниями, подобными текущему участку речевого сигнала. Block 15 is designed to temporarily record, store, read and transmit possible vertices with acoustic states similar to the current portion of the speech signal.

Блок 19 предназначен для формирования вариантов последовательностей слов акустически подобных произнесенному высказыванию. Block 19 is intended to form variants of sequences of words acoustically similar to a spoken utterance.

Блок 20 предназначен для временной записи, хранения, чтения и передачи вариантов последовательностей слов (лексических гипотез) акустически подобных произнесенному высказыванию. \
Блок 21 предназначен для вывода результатов лексической интерпретации слитной речи.
Block 20 is intended for temporary recording, storage, reading and transmission of variants of sequences of words (lexical hypotheses) acoustically similar to a pronounced utterance. \
Block 21 is designed to display the results of the lexical interpretation of continuous speech.

Работа системы лексической интерпретации слитной речи осуществляется следующим образом (см. фиг. 9, 10). Входное высказывание с микрофона поступает на вход блока 3 акустического анализатора 1. Блок 3 преобразует входные сигналы в цифровую форму и выполняет их фильтрацию. Далее сигналы с выхода блока 3 подаются на вход блока 4 для выделения частотного спектра. Сигналы с выхода блока 4 подаются на вход блока 5. С выхода блока 5 сигналы поступают на вход 1 блока 6 и вход 1 блока 7. The work of the lexical interpretation system of continuous speech is as follows (see Fig. 9, 10). The input statement from the microphone is fed to the input of block 3 of the acoustic analyzer 1. Block 3 converts the input signals into digital form and performs their filtering. Next, the signals from the output of block 3 are fed to the input of block 4 to highlight the frequency spectrum. The signals from the output of block 4 are fed to the input of block 5. From the output of block 5, the signals are fed to input 1 of block 6 and input 1 of block 7.

Блок 6 вычисляет весовой коэффициент η , применяемый для поиска входной вершины первого столбца СЛД (см. фиг. 11, фиг. 7). Вычисленное значение весового коэффициента с выхода 2 блока 6 поступает на вход 2 блока 8. С выхода 2 блока 8 значение весового коэффициента η поступает на вход 3 блока 16. С выхода 3 блока 16 значение номера ближайшей вершины поступает на вход 3 блока 8. Далее блок 8 определяет номера вершин nmin и nmax, обозначающие соответственно верхнюю и нижнюю границы области, в которой необходимо проводить поиск начального акустического состояния. После этого блок 8 формирует запросы данных о вершинах, номера которых принадлежат области поиска начального акустического состояния и посылает их со своего выхода 2 на вход 3 блока 16. По принятым номерам вершин блок 16 определяет соответствующие номера эталонных акустических состояний VЭ, их имена и значения параметров АС. Блок 16 со своего выхода 3 подает эти данные на вход 3 блока 8. На выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.Block 6 calculates the weight coefficient η used to search for the input vertex of the first column of the SLD (see Fig. 11, Fig. 7). The calculated value of the weight coefficient from the output 2 of block 6 goes to the input 2 of block 8. From the output of 2 block 8, the value of the weight coefficient η goes to the input 3 of block 16. From the output of 3 block 16, the number of the nearest vertex goes to the input 3 of block 8. Next, the block 8 determines the vertex numbers n min and n max , respectively indicating the upper and lower boundaries of the region in which it is necessary to search for the initial acoustic state. After this, block 8 generates data requests for vertices whose numbers belong to the search area for the initial acoustic state and sends them from its output 2 to input 3 of block 16. Based on the received vertex numbers, block 16 determines the corresponding numbers of reference acoustic states V ,, their names and values speaker parameters. Block 16 from its output 3 supplies this data to the input 3 of block 8. At the output 4 of block 8, a permission signal is generated that is input to input 2 of block 6. In turn, block 6 at output 1 forms a permission signal that goes to input 2 of block 7.

Блок 7 вычисляет текущие значения параметров АС состояния VТ и со своего выхода подает их на вход 1 блока 9. Одновременно с этим блок 8, определив значения параметров ожидаемых эталонов АС - VЭ, вместе с соответствующими номерами вершин, со своего выхода 1 последовательно, начиная с VЭ с номером вершины nmin подает их на вход 2 блока 9.Block 7 calculates the current values of the parameters of the AC state V T and from its output feeds them to the input 1 of block 9. At the same time, block 8, having determined the values of the parameters of the expected standards AC - V E , together with the corresponding numbers of vertices, from its output 1 in sequence, starting with V e with the vertex number n min feeds them to input 2 of block 9.

Блок 9 вычисляет оценку α-степени совпадения текущего и эталонного акустического состояния. Значение этой оценки, вместе с соответствующим номером вершины, с выхода блока 9 поступает на вход 1 блока 10. Block 9 calculates an estimate of the α degree of coincidence of the current and reference acoustic state. The value of this estimate, together with the corresponding vertex number, from the output of block 9 goes to input 1 of block 10.

Блок 11 проверяет содержание блока 10 на достижение верхней границы области поиска nmax. Если nmax не достигнута, то происходит дальнейшее сравнение ожидаемых АС с текущим. Если nmax достигнута, то с выхода 6 блока 11 передаются данные, содержащиеся в блоке 10, которые поступают на вход блока 12.Block 11 checks the contents of block 10 to reach the upper limit of the search region n max . If n max is not reached, then there is a further comparison of the expected speakers with the current one. If n max is reached, then the output 6 of block 11 transfers the data contained in block 10, which are received at the input of block 12.

Блок 12 проверяет данные, поступающие с блока 10 через блок 11 на наличие оценки α, превышающей пороговое значение ε. Если таковой оценки не найдено, то блок 12 анализирует возрастание (убывание) α с возрастанием nmin. После этого на выходе 2 блока 12 формируются сигналы, изменяющие границы области поиска, которые поступают на вход 5 блока 11. Блок 11, изменив границы поиска на своем выходе 1, формирует сигнал управления, который поступает на вход 2 блока 10 и производит обнуление содержимого блока 10. Одновременно на выходе 1 блока 11 формируется сигнал, поступающий на вход 1 блока 8, который разрешает определение следующей возможной вершины. В случае, когда VЭ акустически подобных VТ блок 8 в блоке 16 не обнаружил, то блок 8 производит их поиск в блоке 13.Block 12 checks the data coming from block 10 through block 11 for an estimate of α that exceeds the threshold value ε. If no such estimate is found, then block 12 analyzes the increase (decrease) of α with increasing n min . After that, at the output 2 of block 12, signals are generated that change the boundaries of the search area, which are fed to the input 5 of block 11. Block 11, changing the boundaries of the search at its output 1, generates a control signal that goes to input 2 of block 10 and zeroes the contents of the block 10. At the same time, at the output 1 of block 11, a signal is generated that enters the input 1 of block 8, which allows the determination of the next possible vertex. In the case when VE acoustically similar V T block 8 in block 16 is not found, then block 8 searches them in block 13.

Если оценка α, превышающая пороговое значение ε не найдена и превышены ограничения на допустимую область поиска в блоке 13 и блоке 16, то блок 12 на выходе 1 формирует данные, определяющие VТ как предыдущее АС вершины с именем previous. В этом случае вершине с именем previous присваивается метка неизвестного АС. На выходе 2 блока 12 формируется сигнал, информирующий о неизвестном АС, который поступает на вход 5 блока 11. Блок 11 на выходе 5 формирует управляющий сигнал, который поступает на вход 2 блока 15. По этому сигналу блок 15 на входе 1 принимает информацию, поступающую с выхода 1 блока 12 через блок 14.If the estimate α exceeding the threshold value ε is not found and the limits on the permissible search region in block 13 and block 16 are exceeded, then block 12 at output 1 generates data defining V T as the previous AS of the vertex with the name previous. In this case, the node with the name previous is assigned the label of the unknown speaker. At the output 2 of block 12, a signal is generated informing of an unknown speaker, which is fed to input 5 of block 11. Block 11 at output 5 generates a control signal that is fed to input 2 of block 15. Based on this signal, block 15 at input 1 receives information from the output 1 of block 12 through block 14.

Блок 11 с выхода 5 посылает сигнал на вход 2 блока 15. Блок 11 на входе 3 принимает данные с выхода 2 блока 15. Далее блок 11 производит проверку этих данных на содержание вершины с именем previous. Block 11 from output 5 sends a signal to input 2 of block 15. Block 11 at input 3 receives data from output 2 of block 15. Next, block 11 checks this data for the contents of the vertex named previous.

Если вершина с именем previous не содержит информацию о VЭ акустически подобном VТ, то блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. В этом случае на выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. Блок 6 с выхода 2, вычислив весовой коэффициент η , подает его на вход 2 блока 8. С выхода 2 блока 8 значение весового коэффициента η поступает на вход 3 блока 16. С выхода 3 блока 16 на вход 3 блока 8 поступает значение номера ближайшей вершины. Далее блок 8 определяет номера вершин nmin и nmax, обозначающие соответственно верхнюю и нижнюю границы области, в которой необходимо проводить поиск начального акустического состояния. После этого блок 8 формирует запросы данных о вершинах, номера которых принадлежат области поиска начального акустического состояния и посылает их со своего выхода 2 на вход 3 блока 16. По принятым номерам вершин блок 16 определяет соответствующие номера эталонных акустических состояний - VЭ, их имена и значения параметров АС. Блок 16 со своего выхода 3 подает эти данные на вход 3 блока 8. На выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.If the vertex with the name previous does not contain information about V акуст acoustically similar to V T , then block 11 at output 2, having prepared a signal for processing the next (new) part of the PC, feeds it to input 1 of block 8. In this case, the output 4 of block 8 forms a permission signal, which is input to input 2 of block 6. Block 6 from output 2, after calculating the weight coefficient η, feeds it to input 2 of block 8. From the output 2 of block 8, the value of the weight coefficient η goes to input 3 of block 16. From output 3 of block 16, input 3 of block 8 receives the number of the nearest vertices . Next, block 8 determines the vertex numbers n min and n max , designating respectively the upper and lower boundaries of the region in which it is necessary to search for the initial acoustic state. After this, block 8 generates data requests for vertices whose numbers belong to the search area for the initial acoustic state and sends them from its output 2 to input 3 of block 16. Using the received vertex numbers, block 16 determines the corresponding numbers of reference acoustic states - V Э , their names and AC parameter values. Block 16 from its output 3 supplies this data to the input 3 of block 8. At the output 4 of block 8, a permission signal is generated that is input to input 2 of block 6. In turn, block 6 at output 1 forms a permission signal that goes to input 2 of block 7.

Блок 7 вычисляет текущие значения параметров АС состояния VТ и со своего выхода подает их на вход 1 блока 9. Одновременно с этим блок 8, определив значения параметров ожидаемых эталонов АС - VЭ, вместе с соответствующими номерами вершин, со своего выхода 1 последовательно, начиная с VЭ с номером вершины nmin подает их на вход 2 блока 9.Block 7 calculates the current values of the parameters of the AC state V T and from its output feeds them to the input 1 of block 9. At the same time, block 8, having determined the values of the parameters of the expected standards AC - V E , together with the corresponding numbers of vertices, from its output 1 in sequence, starting with V e with the vertex number n min feeds them to input 2 of block 9.

Если вершина с именем previous содержит информацию о VЭ акустически подобном VТ, то блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. В этом случае на выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.If the vertex with the name previous contains information about V акуст acoustically similar to V T , then block 11 at output 2, having prepared a signal for processing the next (new) section of the PC, feeds it to input 1 of block 8. In this case, at the output 4 of block 8, a permission signal is generated that is input to block 2 input 6. In turn, block 6 at output 1 forms a permission signal that goes to block 2 input 7.

Одновременно блок 7 вычисляет текущее значение акустического состояния VТ, а блок 8 определяет вершины с ожидаемыми VЭ, следующими за вершиной previous в блоке 16. Значения параметров VЭ вместе с соответствующими номерами вершин с выхода 1 блока 8 последовательно поступают на вход 2 блока 9, а значение VТ с выхода блока 6 поступает на вход 1 блока 9.Simultaneously, the block 7 calculates the current value of acoustic states V T, and unit 8 determines the expected peaks V E, the following vertex for the previous parameters in block 16. The values of V e, together with the corresponding numbers of vertices with Released 1 unit 8 sequentially input to block 9 2 , and the value of V T from the output of block 6 goes to input 1 of block 9.

Если блок 12, проверив содержание блока 10, обнаружил оценку α, превышающую пороговое значение ε, то блок 12 принимает значение α в качестве оптимальной - αopt. В этом случае блок 12 переопределяет номер вершины, соответствующий αopt как оптимальный - nopt, маркирует значение nopt именем current и передает его с выхода 1 на вход 1 блока 14. Блок 14 на выходе 2 формирует запрос двоичных кодов вершины и подает его на вход 2 блока 16. С выхода 1 блока 16 на вход 2 блока 14 поступают значение номера вершины, по которому проводился запрос, а также значения двоичных кодов "паузы" и "границы". Блок 14 проверяет значения двоичных кодов у поступившей вершины. После этого на выходе 3 блока 14 формируется сигнал, поступающий на вход 4 блока 11, по которому блок 11 с выхода 5 подает на вход 2 блока 15 сигнал, разрешающий блоку 15 на входе 1 принять данные с выхода 1 блока 14. Блок 19 на своем входе 2 производит чтение данных с выхода 1 блока 15.If block 12, after checking the contents of block 10, finds an estimate of α that exceeds the threshold value of ε, then block 12 takes the value of α as optimal - α opt . In this case, block 12 redefines the vertex number corresponding to α opt as optimal - n opt , marks the value n opt with the current name and transfers it from output 1 to input 1 of block 14. Block 14 at output 2 forms a request for binary vertex codes and sends it to input 2 of block 16. From output 1 of block 16, input 2 of block 14 receives the value of the vertex number by which the request was made, as well as the values of the binary codes “pause” and “border”. Block 14 checks the values of the binary codes at the incoming vertex. After that, at the output 3 of block 14, a signal is generated that goes to the input 4 of block 11, by which the block 11 from the output 5 sends a signal to the input 2 of the block 15, allowing the block 15 at the input 1 to receive data from the output 1 of the block 14. Block 19 input 2 reads data from output 1 of block 15.

Если вершина current - не пауза, то блок 19 с выхода 2 подает значение номера вершины на вход 1 блока 16, по которому блок 16 с выхода 2 посылает на вход 3 блока 19 номер вершины, а также список слов с соответствующими признаками их окончания, связанный с этим номером. Блок 19 на основе принятых слов формирует массив (список) соответствующих последовательностей, каждой из которой присваивает имя PreviousPhrase и соответствующий этому имени номер. Далее блок 19 с выхода 1 записывает сформированный массив последовательностей слов, с соответствующими именами и номерами на вход 1 блока 20. На выходе 3 блока 19 формируется сигнал, поступающий на вход 2 блока 11, по которому блок 11 присваивает значение вершины с именем current переменной previous и с выхода 5 производит его запись в блок 15. После этого блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. If the current peak is not a pause, then block 19 from output 2 supplies the value of the vertex number to input 1 of block 16, by which block 16 from output 2 sends the vertex number to the input 3 of block 19, as well as a list of words with the corresponding signs of their end with this number. Block 19 on the basis of the received words forms an array (list) of the corresponding sequences, each of which is assigned the name PreviousPhrase and the number corresponding to this name. Next, block 19 from output 1 writes the generated array of word sequences, with the corresponding names and numbers to the input 1 of block 20. At the output 3 of block 19, a signal is generated that goes to input 2 of block 11, by which block 11 assigns the value of the vertex with the name current to the previous variable and from output 5 it writes to block 15. After that, block 11 at output 2, having prepared a signal for processing the next (new) section of the PC, feeds it to input 1 of block 8.

Если вершина current - пауза, то блок 19 с выхода 3 подает на вход 2 блока 11 сигнал, по которому блок 11 на выходе 3 формирует разрешающий сигнал и подает его на вход 1 блока 21. По этому сигналу блок 21 производит чтение данных с выхода блока 20 и выводит результаты вариантов возможных последовательностей слов, акустически схожих с произнесенным высказыванием. If the current peak is a pause, then block 19 from output 3 sends a signal to input 2 of block 11, according to which block 11 at output 3 generates an enable signal and feeds it to input 1 of block 21. Based on this signal, block 21 reads data from the output of the block 20 and displays the results of variants of possible sequences of words that are acoustically similar to a spoken utterance.

Более подробный алгоритм работы СЛИСР представлен блок-схемой на фиг. 12 - фиг. 19. Условные обозначения в представленном алгоритме приведены на страницах 29 - 31. A more detailed algorithm for the operation of SLISR is presented in the flowchart of FIG. 12 - FIG. 19. Conventions in the presented algorithm are given on pages 29 - 31.

Предлагаемая СЛИСР, использующая СЛД, по своей сути позволяет отслеживать несколько акустически схожих траекторий (последовательностей вершин), из которых можно выбирать наиболее оптимальную. Для этого необходимо модернизировать лексический анализатор путем введения в него блока выбора траектории. The proposed SLISR, which uses SLD, in essence allows you to track several acoustically similar trajectories (sequences of vertices) from which you can choose the most optimal one. For this, it is necessary to modernize the lexical analyzer by introducing a path selection block into it.

Система ведет поиск, перебирая все допустимые вершины (либо только в выделенной области), содержащие АС, которые могут следовать за начальной. Поиск оптимальной последовательности АС осуществляется в пределах некоторой части СЛД. В связи с тем, что на каждом шаге обработки входных данных перебирается несколько возможных вариантов АС, отпадает необходимость возврата назад. The system searches by sorting all the valid vertices (or only in the selected area) containing speakers that can follow the initial one. The search for the optimal AS sequence is carried out within a certain part of the SLD. Due to the fact that at each step of processing the input data several possible speaker options are selected, there is no need to go back.

Преимущества предлагаемой системы состоят в том, что она позволяет с более высоким быстродействием и более высокой вероятностью проводить лексическую интерпретацию слитной речи. The advantages of the proposed system are that it allows lexical interpretation of continuous speech with higher speed and higher probability.

Блок 3 представляет собой стандартный аналого-цифровой преобразователь для ввода акустических сигналов в ЭВМ и набор фильтров, который может быть реализован как аппаратно, так и программно. Блоки 5, 10, 13, 15, 16, 17, 18, 20 - являются блоками памяти и могут быть выполнены, как, например, в виде запоминающих: устройств, плат, узлов и т.д. и в зависимости от объема используемых слов могут быть реализованы на основе больших, средних и малых интегральных схем, с соответствующей им периферией или на основе накопителей на магнето-оптических, электронных дисках, и т.д. с соответствующей им периферией. Блоки 4, 6 - 9, 11, 12, 14, 19 могут быть реализованы как аппаратно, так и программно. Программная реализация этих блоков представлена в виде блок-схемы алгоритма работы на фиг. 12 - 19. Блок 21 может быть реализован в виде устройства с визуальным отображением информации (например, дисплей), с соответствующей ему периферией или в виде интерфейса, обеспечивающего логическое или физическое взаимодействие СЛИСР и системы: распознавания или понимания речи, управления технологическим оборудованием или роботом, средствами вычислительной техники, автоматического речевого перевода и др. Block 3 is a standard analog-to-digital converter for inputting acoustic signals into a computer and a set of filters, which can be implemented both hardware and software. Blocks 5, 10, 13, 15, 16, 17, 18, 20 - are memory blocks and can be made, such as, for example, in the form of storage devices, boards, nodes, etc. and depending on the volume of words used, they can be implemented on the basis of large, medium, and small integrated circuits, with their corresponding peripherals, or on the basis of drives on magneto-optical, electronic disks, etc. with their respective periphery. Blocks 4, 6 - 9, 11, 12, 14, 19 can be implemented both hardware and software. The software implementation of these blocks is presented in the form of a flowchart of the algorithm of operation in FIG. 12 - 19. Block 21 can be implemented as a device with a visual display of information (for example, a display), with its corresponding periphery, or in the form of an interface that provides logical or physical interaction between SLISR and a system: speech recognition or understanding, control of technological equipment or a robot , computer facilities, automatic voice translation, etc.

Условные обозначения
Previous - предыдущая вершина;
Current - текущая вершина;
Size - размер массива (списка) следующих возможных вершин;
Edge - размер массива (списка) граничных вершин;
SizeWord - размер массива (списка) ожидаемых слов;
SizePhrase - размер массива (списка) ожидаемых последовательностей слов;
NewSizePhrase - размер нового массива (списка)ожидаемых последовательностей слов;
Words[] - массив (список) ожидаемых слов;
PreviousPhrase[] - массив (список) предыдущих последовательностей слов;
NewPhrase[] - новый массив (список) ожидаемых последовательностей слов;
zPhrase - счетчик нулевых последовательностей слов;
CurrentPhrase - текущая последовательностей слов;
CurPhraseWord - последнее слово из последовательности CurrentPhrase;
Ptr - индикатор текущей вершины массива следующих возможных вершин, исходящих из предыдущей вершины Previous;
WordPtr - указатель текущего (ожидаемого) слова;
PhrasePtr - указатель текущей (ожидаемой) последовательности слов;
NewPhrasePrt - указатель новой (ожидаемой) последовательности слов;

Figure 00000012
- символ окончания слова;
⊕ - символ конкатенации (склейки);
Unknown - метка не найденного АС;
η - весовой коэффициент;
n - номер ближайшей вершины;
Vт - текущее АС;
Vэ - эталонное АС;
λ - коэффициент, определяющий смещение границ области поиска;
nmin - номер вершины, обозначающий нижнюю границу области поиска;
Figure 00000013
- номер вершины, обозначающий критическое значение нижней границы области поиска;
nmax - номер вершины, обозначающий верхнюю границу области поиска;
Figure 00000014
- номер вершины, обозначающий критическое значение верхней границы области поиска;
α - оценка степени совпадения текущего и эталонного акустического состояния;
ε - пороговое значение оценки степени совпадения текущего и эталонного акустического состояния;
αopt - оптимальное значение оценки степени совпадения текущего и эталонного акустического состояния;
nopt - номер вершины, соответствующий αopt
Библиографические данные
1. Lesser V.R., Fennel R.D., Erman L.D., Reddy D.R., Organization of the HEARSAY II Speech Understanding System, IEEE Trans. ASSP, 23, 1, pp. 11-24, 1975.Legend
Previous - previous vertex;
Current - current peak;
Size - the size of the array (list) of the following possible vertices;
Edge - the size of the array (list) of boundary vertices;
SizeWord - the size of the array (list) of expected words;
SizePhrase - the size of the array (list) of expected sequences of words;
NewSizePhrase - size of the new array (list) of expected sequences of words;
Words [] - an array (list) of expected words;
PreviousPhrase [] - an array (list) of previous sequences of words;
NewPhrase [] - a new array (list) of expected sequences of words;
zPhrase - counter of zero sequences of words;
CurrentPhrase - current word sequences;
CurPhraseWord - the last word from the CurrentPhrase sequence;
Ptr - indicator of the current vertex of the array of the next possible vertices coming from the previous vertex Previous;
WordPtr - pointer to the current (expected) word;
PhrasePtr - pointer to the current (expected) sequence of words;
NewPhrasePrt - pointer to a new (expected) sequence of words;
Figure 00000012
- the word ending symbol;
⊕ - symbol of concatenation (gluing);
Unknown - label of the speaker not found;
η is the weight coefficient;
n is the number of the nearest vertex;
V t - current speaker;
V e - reference speaker;
λ is a coefficient determining the displacement of the boundaries of the search region;
n min is the vertex number denoting the lower boundary of the search region;
Figure 00000013
- the vertex number denoting the critical value of the lower boundary of the search area;
n max is the vertex number denoting the upper boundary of the search region;
Figure 00000014
- the vertex number denoting the critical value of the upper boundary of the search area;
α - assessment of the degree of coincidence of the current and reference acoustic state;
ε is the threshold value for assessing the degree of coincidence of the current and reference acoustic state;
α opt is the optimal value for assessing the degree of coincidence of the current and reference acoustic state;
n opt is the vertex number corresponding to α opt
Bibliographic data
1. Lesser VR, Fennel RD, Erman LD, Reddy DR, Organization of the HEARSAY II Speech Understanding System, IEEE Trans. ASSP, 23, 1, pp. 11-24, 1975.

2. Baker J. K., The DRAGON System - An overview, IEEE Trans. ASSP, 23, No. 1. February, 1975, pp. 24 - 29. 2. Baker J. K., The DRAGON System - An overview, IEEE Trans. ASSP, 23, No. February 1, 1975, pp. 24 - 29.

3. Klowstad J. W. , Mondshein L. F., The CASPERS Linguistic Analysys System, IEEE Trans. ASSP, 23, No. 1. February, 1975, pp. 118 - 123. 3. Klowstad J. W., Mondshein L. F., The CASPERS Linguistic Analysys System, IEEE Trans. ASSP, 23, No. February 1, 1975, pp. 118 - 123.

Claims (2)

1. Способ лексической интерпретации слитной речи, состоящий в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале, далее берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют текущие значения параметров входного речевого сигнала, сравнивают полученные значения параметров входного речевого сигнала с эталонными, предварительно сформированными сетью лексического декодирования заданного набора слов, и по результатам сравнения строят гипотезы о возможных словах в речевом высказывании, отличающийся тем, что на основе сети лексического декодирования по вычисленным значениям параметров входного речевого сигнала и результатам сравнения строят гипотезы о возможном начале, продолжении, либо конце слоев в речевом высказывании, и одновременно составляют наиболее вероятные последовательности эталонных слов, соответствующие произнесенному речевому высказыванию, при этом произносимые слова могут непрерывно следовать друг за другом в любом порядке либо разделяться паузами, либо словами, не принадлежащими к заданному набору слов, а сеть лексического декодирования представляет собой интегрированную базу данных, содержащую орфографические представления заданного набора слов, ожидаемые акустические представления заданного набора слов в виде последовательностей эталонных значений параметров речевого сигнала, определяющих акустические состояния и объединяющую фонетическую транскрипции, фонологические правила и лексику для заданного набора слов. 1. The method of lexical interpretation of continuous speech, which consists in periodically uttering a speech saying that is digitized at fixed time intervals with a given quantization frequency in this interval, then samples of this acoustic digitized signal are taken, from the totality of which the current values of the parameters of the input speech signal are calculated , compare the obtained values of the parameters of the input speech signal with the reference, pre-formed by the network of lexical decoding of a given a set of words, and based on the results of comparison, hypotheses are built about possible words in a speech utterance, characterized in that based on the lexical decoding network, hypotheses are made about the possible beginning, continuation, or end of layers in a speech utterance based on the calculated values of the input speech signal, and at the same time make up the most probable sequences of reference words corresponding to the spoken utterance, while the spoken words can continuously follow each other the friend in any order is either separated by pauses or words that do not belong to a given set of words, and the lexical decoding network is an integrated database containing spelling representations of a given set of words, expected acoustic representations of a given set of words in the form of sequences of reference values of speech signal parameters, defining acoustic states and combining phonetic transcriptions, phonological rules and vocabulary for a given set of words. 2. Система, реализующая способ по п.1, содержащая последовательно соединенные акустический анализатор, содержащий блок предварительной обработки, частотный анализатор спектра, буфер хранения значений спектра, лексический анализатор, содержащий блок сравнения с эталоном, блок хранения базы данных слов, отличающаяся тем, что в акустический анализатор введены вычислители весового коэффициента и текущего акустического состояния, а в лексический анализатор введены определитель ожидаемых акустических состояний, блок памяти оценок сравнения, блок управления, блок выбора оптимальной оценки и маркировки вершин, блок хранения базы данных граничных вершин, блок проверки, блок памяти возможных вершин, блок хранения базы данных локальных вершин, блок хранения базы данных эталонов акустических состояний, формирователь лексических гипотез, блок памяти лексических гипотез, блок вывода, при этом первые входы вычислителей весового коэффициента и текущего акустического состояния соединены с выходом буфера хранения значений спектра, первый выход вычислителя весового коэффициента подключен к управляющему входу вычислителя текущего акустического состояния, второй выход вычислителя весового коэффициента соединен со вторым входом определителя ожидаемых акустических состояний, первый выход которого соединен со вторым входом блока сравнения с эталоном, выход вычислителя текущего акустического состояния соединен с первым входом блока сравнения с эталоном, второй выход определителя ожидаемых акустических состояний соединен с третьим входом блока хранения базы данных локальных вершин, третий выход определителя ожидаемых акустических состояний соединен со входом блока хранения базы данных граничных вершин, четвертый выход определителя ожидаемых акустических состояний подключен к управляющему входу вычислителя весового коэффициента, выход блока сравнения с эталоном соединен со входом блока памяти оценок сравнения, выход которого подключен к первому входу блока управления, первый выход блока управления подключен к управляющему входу блока памяти оценок сравнения, второй выход блока управления подключен к первому входу определителя ожидаемых акустических состояний, третий выход блока управления соединен с первым входом блока вывода, четвертый выход блока управления подключен к управляющему входу блока памяти лексических гипотез, пятый выход блока управления подключен к управляющему входу блока памяти возможных вершин, шестой выход блока управления соединен со входом блока выбора оптимальной оценки и маркировки вершин, первый выход которого соединен с первым входом блока проверки, второй выход блока выбора оптимальной оценки и маркировки вершин соединен с пятым входом блока управления, первый выход блока проверки соединен со входом блока памяти возможных вершин, второй выход блока проверки соединен со вторым входом блока хранения базы данных локальных вершин, третий выход блока проверки соединен с четвертым входом блока управления, выход блока хранения базы данных граничных вершин соединен с четвертым входом блока хранения базы данных локальных вершин, первый выход блока памяти возможных вершин соединен со вторым входом формирователя лексических гипотез, второй выход блока памяти возможных вершин соединен с третьим входом блока управления, первый выход блока памяти лексических гипотез соединен с первым входом формирователя лексических гипотез, первый выход формирователя лексических гипотез соединен со входом блока памяти лексических гипотез, второй выход которого соединен со вторым входом блока вывода, второй выход формирователя лексических гипотез соединен с первым входом блока хранения базы данных локальных вершин, третий выход формирователя лексических гипотез подключен ко второму входу блока управления, первый выход блока хранения базы данных локальных вершин соединен со вторым входом блока проверки, второй выход блока хранения базы данных локальных вершин подключен к третьему входу формирователя лексических гипотез, третий выход блока хранения базы данных локальных вершин соединен с третьим входом определителя ожидаемых акустических состояний, четвертый выход блока хранения базы данных локальных вершин подключен ко входу блока хранения базы данных слов, выход которого соединен с пятым входом блока хранения базы данных локальных вершин, пятый выход блока хранения базы данных локальных вершин подключен ко входу блока хранения базы данных эталонов акустических состояний, выход которого соединен с шестым входом блока хранения базы данных локальных вершин. 2. The system that implements the method according to claim 1, containing a series-connected acoustic analyzer containing a pre-processing unit, a frequency spectrum analyzer, a buffer for storing spectrum values, a lexical analyzer containing a comparison unit with a standard, a word database storage unit, characterized in that calculators of the weight coefficient and the current acoustic state are entered into the acoustic analyzer, and a determinant of expected acoustic states, a memory block of comparison estimates are entered into the lexical analyzer I, the control unit, the unit for selecting the optimal assessment and labeling of vertices, the storage unit for the database of boundary vertices, the verification unit, the memory unit for possible vertices, the storage unit for the database of local vertices, the storage unit for the database of standards of acoustic states, the lexical hypothesis generator, the lexical memory unit hypotheses, an output unit, while the first inputs of the weight factor and current acoustic state calculators are connected to the output of the spectrum storage buffer, the first output of the weight factor calculator connected to the control input of the current acoustic state calculator, the second output of the weight factor calculator is connected to the second input of the expected acoustic state determinant, the first output of which is connected to the second input of the comparison unit with the reference, the output of the current acoustic state calculator is connected to the first input of the comparison unit with the standard, the second the output of the determinant of expected acoustic states is connected to the third input of the storage unit of the database of local vertices, the third output of the determinant of the given acoustic states is connected to the input of the boundary vertex database storage unit, the fourth output of the expected acoustic states determinant is connected to the control input of the weight factor calculator, the output of the comparison unit with the reference is connected to the input of the comparison estimates memory block, the output of which is connected to the first input of the control unit, the first the output of the control unit is connected to the control input of the comparison estimates memory block, the second output of the control unit is connected to the first input of the expected condition, the third output of the control unit is connected to the first input of the output unit, the fourth output of the control unit is connected to the control input of the lexical hypothesis memory unit, the fifth output of the control unit is connected to the control input of the memory unit of possible vertices, the sixth output of the control unit is connected to the input of the optimal selection unit assessment and marking of vertices, the first output of which is connected to the first input of the check unit, the second output of the block for selecting the optimal assessment and marking of vertices is connected to the fifth input of the block and the control, the first output of the verification unit is connected to the input of the memory block of possible vertices, the second output of the verification unit is connected to the second input of the storage unit of the local vertex database, the third output of the verification unit is connected to the fourth input of the control unit, the output of the boundary vertex database storage unit is connected to the fourth input of the local vertex database storage unit, the first output of the possible vertex memory block is connected to the second input of the lexical hypothesis generator, the second output of the possible vertex memory block is connected nen with the third input of the control unit, the first output of the lexical hypothesis memory unit is connected to the first input of the lexical hypothesis generator, the first output of the lexical hypothesis generator is connected to the input of the lexical hypothesis memory, the second output of which is connected to the second input of the output unit, the second output of the lexical hypothesis generator is connected with the first input of the local vertex database storage unit, the third output of the lexical hypothesis generator is connected to the second input of the control unit, the first output of the xp unit An analysis of the local vertex database is connected to the second input of the verification unit, the second output of the local vertex database storage unit is connected to the third input of the lexical hypothesis generator, the third output of the local vertex database storage unit is connected to the third input of the expected acoustic state determinant, and the fourth output of the base storage unit local vertex data is connected to the input of the word database storage unit, the output of which is connected to the fifth input of the local vertex database storage unit, the fifth output is and database storage connected to the local peaks entry database storage state of the reference acoustic unit, an output of which is connected to a sixth input data base storage unit of local peaks.
RU97117246A 1997-10-27 1997-10-27 Method and system for lexical interpretation of fused speech RU2119196C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU97117246A RU2119196C1 (en) 1997-10-27 1997-10-27 Method and system for lexical interpretation of fused speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU97117246A RU2119196C1 (en) 1997-10-27 1997-10-27 Method and system for lexical interpretation of fused speech

Publications (2)

Publication Number Publication Date
RU2119196C1 true RU2119196C1 (en) 1998-09-20
RU97117246A RU97117246A (en) 1999-01-10

Family

ID=20198155

Family Applications (1)

Application Number Title Priority Date Filing Date
RU97117246A RU2119196C1 (en) 1997-10-27 1997-10-27 Method and system for lexical interpretation of fused speech

Country Status (1)

Country Link
RU (1) RU2119196C1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003034281A1 (en) * 2001-10-19 2003-04-24 Intel Zao Method and apparatus to provide a hierarchical index for a language model data structure
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
RU2688277C1 (en) * 2016-02-05 2019-05-21 ГУГЛ ЭлЭлСи Re-speech recognition with external data sources

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Leser V.R., Fennel R.D., Erman L.D., Reddy D.R. Organization of the HEARSAY II, Speech Understanding System, IEEE Trans, ASSP, 23, 1, p.p.11 - 24, 1975. Baker I.K., The DRAGON System - An Overtien, IEEE Trans, ASSP, 23, N 1, February, 1975, pp. 24 - 29. Klowstad J.W., Mondshein L.F., The CASPERS Linguistic Analysys System, IEEE Trans, ASSP, 23, N 1, February, 1975, pp.118 - 123. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003034281A1 (en) * 2001-10-19 2003-04-24 Intel Zao Method and apparatus to provide a hierarchical index for a language model data structure
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
RU2688277C1 (en) * 2016-02-05 2019-05-21 ГУГЛ ЭлЭлСи Re-speech recognition with external data sources

Similar Documents

Publication Publication Date Title
Rao et al. Speech recognition using articulatory and excitation source features
Klatt Speech perception: A model of acoustic–phonetic analysis and lexical access
JP4351385B2 (en) Speech recognition system for recognizing continuous and separated speech
EP0619911B1 (en) Children&#39;s speech training aid
EP1139332A2 (en) Spelling speech recognition apparatus
JPH09500223A (en) Multilingual speech recognition system
CN111862954B (en) Method and device for acquiring voice recognition model
JP2004526197A (en) Transcription and display of input audio
KR20060043845A (en) Improving new-word pronunciation learning using a pronunciation graph
CN112466279B (en) Automatic correction method and device for spoken English pronunciation
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
JP4600706B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
RU2119196C1 (en) Method and system for lexical interpretation of fused speech
CN115424604A (en) Training method of voice synthesis model based on confrontation generation network
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
Martinčić–Ipšić et al. Acoustic modelling for Croatian speech recognition and synthesis
JP5028599B2 (en) Audio processing apparatus and program
RU2101782C1 (en) Method for recognition of words in continuous speech and device which implements said method
Ng Survey of data-driven approaches to Speech Synthesis
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Colton Confidence and rejection in automatic speech recognition
Mon Myanmar language continuous speech recognition using convolutional neural network (CNN)
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Kurian Development of Speech corpora for different Speech Recognition tasks in Malayalam language
Thilak et al. Speech recognizer for Tamil language