RU2119196C1 - Method and system for lexical interpretation of fused speech - Google Patents
Method and system for lexical interpretation of fused speech Download PDFInfo
- Publication number
- RU2119196C1 RU2119196C1 RU97117246A RU97117246A RU2119196C1 RU 2119196 C1 RU2119196 C1 RU 2119196C1 RU 97117246 A RU97117246 A RU 97117246A RU 97117246 A RU97117246 A RU 97117246A RU 2119196 C1 RU2119196 C1 RU 2119196C1
- Authority
- RU
- Russia
- Prior art keywords
- output
- input
- unit
- lexical
- block
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Изобретение относится к области автоматики и вычислительной техники и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, роботами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др. The invention relates to the field of automation and computer technology and can be used in speech understanding systems, process equipment control systems, robots, computer tools, automatic voice translation, in help systems, etc.
Известен способ лексической интерпретации слитной речи, реализованный в системе автоматического понимания речи английского языка HEARSAY II [1]. A known method of lexical interpretation of continuous speech, implemented in the system of automatic understanding of English speech HEARSAY II [1].
Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала и по их совокупности вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют класс слогов, называемый слоготипом. После этого для каждого слоготипа при построении лексической гипотезы выявляют все слова, которые содержат ударный слог, принадлежащий этому классу слоготипов. Многосложные слова отвергаются, если они плохо согласуются со смежными слоготипами. Определение слоготипов основано на группировании фонем в фонетические классы. Произношение каждого слова, принадлежащего словарю произношений, преобразуется в последовательность слоготипов путем распределения всех фонем по их классам. Последовательности значений параметров неизвестного речевого высказывания определяют гипотезы о слоготипах, используемых для построения гипотез о словах. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Then, samples of this acoustic digitized signal are taken and, based on their totality, the current values of the parameters of the input speech signal are calculated, which transform the class of syllables, called the syllotype. After that, for each syllotype, when constructing the lexical hypothesis, all words that contain the stressed syllable belonging to this class of syllotypes are revealed. Polysyllabic words are rejected if they do not agree well with related syllotypes. The definition of syllables is based on the grouping of phonemes into phonetic classes. The pronunciation of each word that belongs to the pronunciation dictionary is converted into a sequence of syllotypes by distributing all phonemes by their classes. The sequence of parameter values of an unknown speech utterance defines hypotheses about the syllotypes used to construct hypotheses about words.
Особенностью известного способа является то, что вариации произношения слов учитывают путем применения широких классов фонем и включения вариантов произношения слов в словарь. Классы фонем предполагают, что каждый слоготип принадлежит только к одному классу слоготипов. A feature of the known method is that variations in the pronunciation of words are taken into account by applying wide classes of phonemes and including variants of pronunciation of words in the dictionary. Classes of phonemes suggest that each syllotype belongs to only one class of syllotypes.
Однако этот способ имеет недостатки: невозможно разделить слоги и фонемы строго на классы, так как существуют фонемы, которые можно отнести к двум соседним классам. Это приводит к тому, что различия между классами стираются и уменьшается четкость различия слоготипов, в результате чего снижается точность лексической интерпретации слитной речи. However, this method has drawbacks: it is impossible to separate syllables and phonemes strictly into classes, since there are phonemes that can be attributed to two neighboring classes. This leads to the fact that the differences between the classes are erased and the clarity of the difference between the syllabi is reduced, as a result of which the accuracy of the lexical interpretation of continuous speech is reduced.
Известен способ лексической интерпретации слитной речи особенность, которого состоит в непосредственном переходе от распознанных звуков в высказывании к произношениям слов с учетом изменения этих звуков при коартикуляции. Этот способ реализован в системе автоматического понимания речи DRAGON [2]. A known method of lexical interpretation of continuous speech is a feature, which consists in a direct transition from recognized sounds in the utterance to pronunciation of words, taking into account changes in these sounds during co-articulation. This method is implemented in the system of automatic speech understanding DRAGON [2].
Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала и по их совокупности вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют в фонему. После этого формируют последовательность фонем, и, используя сеть лексического декодирования, представляющую собой модель произнесения слова, строят гипотезы о возможных словах в высказывании. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, samples of this acoustic digitized signal are taken and, based on their totality, the current values of the parameters of the input speech signal are calculated, which are converted into a phoneme. After this, a sequence of phonemes is formed, and using a lexical decoding network, which is a model for pronouncing a word, hypotheses about possible words in a statement are built.
Для построения сети лексического декодирования берут каноническое произношение и применяют к нему фонологические правила, чтобы представить наиболее полную вероятную модель произношения слова. При использовании словаря канонического произношения (словаря подсетей слова) каждая подсеть слова заменяется до узла. В результате чего получаем сеть, в которой каждый узел представляет собой индивидуальную фонему. Возможные фонетические реализации слова формируются путем неоднократного применения фонологических правил к основному произношению. To build a network of lexical decoding, a canonical pronunciation is taken and phonological rules are applied to it to represent the most complete probable pronunciation model of a word. When using the canonical pronunciation dictionary (the word subnet dictionary), each word subnet is replaced to the node. As a result, we get a network in which each node is an individual phoneme. Possible phonetic realizations of the word are formed by repeatedly applying phonological rules to the main pronunciation.
Каждое правило обеспечивает альтернативное произношение некоторой последовательности фонем. Для каждого фонологического правила осуществляется просмотр всей сети, чтобы найти любые узлы, которые удовлетворяют условиям контекста. Все это приводит к снижению быстродействия и точности лексической интерпретации слитной речи. Each rule provides an alternative pronunciation for a sequence of phonemes. For each phonological rule, the entire network is scanned to find any nodes that satisfy the context. All this leads to a decrease in the speed and accuracy of the lexical interpretation of continuous speech.
Наиболее близким к заявляемому способу, взятому в качестве прототипа, является способ лексической интерпретации слитной речи, реализованный в системе CASPERS [3] . Суть способа состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют текущие значения параметров входного речевого сигнала, которые преобразуют в фонему. После этого формируют последовательность фонем, и, используя лексическую декодирующую схему, строят гипотезы о возможных словах в высказывании. При этом лексическая декодирующая схема представляет собой дерево, содержащее все ожидаемые фонетические реализации слов заданного словаря. Слова, имеющие одинаковые первые звуки, помещают в одной и той же начальной точке дерева. Далее, конец каждой ветви дерева, представляющей произношение слова, соединяют со всеми начальными формами слов, применяя при этом набор фонологических правил. В результате создается сеть фонетических решений. Closest to the claimed method, taken as a prototype, is the method of lexical interpretation of continuous speech, implemented in the CASPERS system [3]. The essence of the method is that periodically utter a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, take samples of this acoustic digitized signal, the totality of which calculates the current values of the parameters of the input speech signal, which are converted into a phoneme. After this, a sequence of phonemes is formed, and, using the lexical decoding scheme, hypotheses about possible words in the utterance are built. In this case, the lexical decoding scheme is a tree containing all the expected phonetic realizations of the words of a given dictionary. Words that have the same first sounds are placed at the same starting point in the tree. Further, the end of each branch of the tree representing the pronunciation of the word is connected with all the initial forms of words, using a set of phonological rules. As a result, a network of phonetic solutions is created.
Определение исходного выражения основано на поиске оптимальной последовательности фонем в сети фонетических решений. При этом для учета внутри словарных фонологических явлений, а также изменений окончаний слов из-за влияния предыдущих и последующих слов, ожидаемые фонетические реализации слова представляют путем расширения основного произношения несколькими альтернативными произношениями. Такое расширение словаря производят автоматически, с применением фонологических правил. The definition of the original expression is based on the search for the optimal sequence of phonemes in the network of phonetic solutions. Moreover, for accounting inside the dictionary phonological phenomena, as well as changes in word endings due to the influence of previous and subsequent words, the expected phonetic realizations of the word are represented by expanding the main pronunciation with several alternative pronunciations. Such a dictionary expansion is done automatically, using phonological rules.
Однако необходимо располагать некоторой эвристической стратегией сравнения для подбора слов, соответствующих фонетической записи неизвестного выражения. Для этого необходимо вводить меру штрафа при ошибочной идентификации, возможных случаев добавления или пропуска звуков, так как автоматический фонетический анализатор допускает много ошибок такого типа. Ошибки в фонетической транскрипции могут привести в конечном счете к неустранимому рассогласованию с правильным словом. However, it is necessary to have some heuristic comparison strategy for selecting words corresponding to the phonetic notation of an unknown expression. To do this, it is necessary to introduce a penalty measure for erroneous identification, possible cases of adding or skipping sounds, since the automatic phonetic analyzer makes many errors of this type. Errors in phonetic transcription can ultimately lead to fatal mismatch with the correct word.
Недостатками вышеперечисленных способов и прототипа являются низкое быстродействие, недостаточная точность лексической интерпретации слитной речи, что обусловлено следующим:
- фонетическая транскрипция, которая служит входной информацией для построения лексических гипотез, содержит ошибки замещения, лишние звуки и пропуски звуков, уменьшающие сходство интерпретируемого слова с правильной гипотезой и увеличивающее сходство интерпретируемого слова с ошибочными, особенно при большом объеме словаря;
- неоднократное применение фонологических правил к словарю произношений слов влечет за собой замедление процесса лексической интерпретации слитной речи;
- ожидаемая фонетическая реализация слова зависит от контекста предложения, в котором оно встречается. Границы слов в слитной речи полностью отсутствуют в транскрипции, так как акустические признаки их положений слабо выражены;
- положение границы между длительностями фонетических групп зависит от скорости речи, положения синтаксических границ, ударных слогов и локального фонетического окружения.The disadvantages of the above methods and prototype are the low speed, lack of accuracy of the lexical interpretation of continuous speech, due to the following:
- phonetic transcription, which serves as input for constructing lexical hypotheses, contains substitution errors, extra sounds and missing sounds, reducing the similarity of the interpreted word to the correct hypothesis and increasing the similarity of the interpreted word to erroneous ones, especially when the dictionary is large;
- repeated application of phonological rules to the dictionary of pronunciation of words entails a slowdown in the process of lexical interpretation of continuous speech;
- the expected phonetic realization of a word depends on the context of the sentence in which it occurs. Word boundaries in continuous speech are completely absent in transcription, since the acoustic signs of their positions are poorly expressed;
- the position of the boundary between the durations of the phonetic groups depends on the speed of speech, the position of the syntactic boundaries, stressed syllables and the local phonetic environment.
При лексической интерпретации слитной речи возникает задача, суть которой состоит в том, что принятие решения на фонетическом уроне частично зависит от фактора более высокого уровня, которые не могут быть определены, пока не приняты решения на фонетическом уровне. Решение данной задачи сводится к необходимости принятия решения на фонетическом и более высоких уровнях одновременно. In the lexical interpretation of continuous speech, a problem arises, the essence of which is that making decisions on phonetic damage partially depends on a higher level factor that cannot be determined until decisions are made on the phonetic level. The solution to this problem boils down to the need to make decisions at the phonetic and higher levels simultaneously.
Описание предлагаемого способа лексической интерпретации слитной речи включает восемь фигур: фиг. 1 - общее представление гласной фонемы; фиг. 2 - орфографическое и фонетическое представление лексем, фиг. 3 - моделирующий граф; фиг. 4, 5 - граф альтернативных представлений; фиг. 6 - сеть альтернативных представлений; фиг. 7 - сеть лексического декодирования; фиг. 8 - пример структуры данных. The description of the proposed method of lexical interpretation of continuous speech includes eight figures: FIG. 1 is a general representation of the vowel phoneme; FIG. 2 - spelling and phonetic representation of tokens, FIG. 3 - modeling graph; FIG. 4, 5 - graph of alternative representations; FIG. 6 - a network of alternative representations; FIG. 7 - network lexical decoding; FIG. 8 is an example of a data structure.
Предлагаемый способ лексической интерпретации слитной речи состоит в том, что периодически произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Затем берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют текущие значения параметров входного речевого сигнала, определяющих текущее акустическое состояние. The proposed method of lexical interpretation of continuous speech consists in periodically uttering a speech utterance, which is digitized at fixed time intervals with a given quantization frequency in this interval. Then take samples of this acoustic digitized signal, the totality of which calculates the current values of the parameters of the input speech signal that determine the current acoustic state.
Способ отличается тем, что, минуя уровень фонемического преобразования, одновременно по вычисленным значениям параметров входного речевого сигнала, используя сеть лексического декодирования, строят гипотезы о возможном начале, продолжении, либо конце слов в речевом высказывании, и составляют наиболее вероятные последовательности эталонных слов, соответствующие произнесенному речевому высказыванию. При этом произносимые слова могут непрерывно следовать друг за другом в любом порядке, либо разделяться паузами, либо словами, не принадлежащими к заданному набору слов. Предлагаемая сеть лексического декодирования представляет собой интегрированную базу данных, содержащую орфографические представления заданного набора слов, ожидаемые акустические представления заданного набора слов в виде последовательностей эталонных значений параметров речевого сигнала, определяющих акустические состояния и объединяющую фонетическую транскрипцию, фонологические правила и лексику для заданного набора слов. The method is characterized in that, bypassing the level of the phonemic transformation, simultaneously using the calculated values of the parameters of the input speech signal, using the lexical decoding network, hypotheses are built about the possible beginning, continuation, or end of words in the speech utterance, and the most probable sequences of reference words corresponding to the spoken are made up speech utterance. In this case, the spoken words can continuously follow each other in any order, or can be separated by pauses, or by words that do not belong to a given set of words. The proposed lexical decoding network is an integrated database containing spelling representations of a given set of words, expected acoustic representations of a given set of words in the form of sequences of reference values of speech signal parameters that determine acoustic states and combines phonetic transcription, phonological rules and vocabulary for a given set of words.
Результатом осуществления изобретения является повышение точности лексической интерпретации слитной речи русского языка и обеспечение быстродействия, максимально приближенного к реальному времени. Результат достигается использованием сети лексического декодирования (СЛД), лексемы которого представлены в виде последовательности акустических состояний (АС), учитывающей внутри словарные фонетические явления, а также фонетические явления, возникающие на границах слов. The result of the invention is to increase the accuracy of the lexical interpretation of the unified speech of the Russian language and ensuring performance as close as possible to real time. The result is achieved using the lexical decoding network (SLD), the lexemes of which are presented as a sequence of acoustic states (AS), taking into account the dictionary phonetic phenomena, as well as phonetic phenomena that occur at word boundaries.
Акустическим состоянием предлагается называть набор значений параметров речевого сигнала (РС), характеризующий временной интервал, соизмеримый с периодом основного тона. Суть такого подхода заключается в представлении РС конечным числом заранее выбранных типов АС. Число различных АС должно быть выбрано таким образом, чтобы отразить все значимое разнообразие импульсных реакций вокального тракта в процессе речеобразования. It is proposed to call the acoustic state a set of values of the parameters of a speech signal (RS), which characterizes a time interval commensurate with the period of the fundamental tone. The essence of this approach is to present the RS with a finite number of pre-selected types of speakers. The number of different speakers should be chosen in such a way as to reflect the entire significant variety of impulse responses of the vocal tract during speech formation.
В основу акустического представления сигналов слитной речи положен принцип последовательного разложения фонем на аллофоны, а аллофонов - на составляющие их АС. Аллофоны легко различимы акустически, вследствие чего исчезает потребность применения правил на более низких уровнях. Они содержат информацию о границах между слогами и словами. Такую информацию предлагается получать посредством представления аллофонов в виде трех последовательных АС: начального, серединного и конечного. При этом тип серединного АС зависит только от типа выбранного аллофона, а тип начального или конечного - переходного АС зависит, кроме того, от типа предшествующей и последующей фонемы. The acoustic representation of continuous speech signals is based on the principle of sequential decomposition of phonemes into allophones, and allophones into their constituent speakers. Allophones are easily distinguishable acoustically, as a result of which the need to apply the rules at lower levels disappears. They contain information about the boundaries between syllables and words. It is proposed that such information be obtained by representing allophones in the form of three consecutive speakers: initial, middle and final. In this case, the type of middle speaker depends only on the type of allophone selected, and the type of initial or final transitional speaker depends, moreover, on the type of previous and subsequent phonemes.
Возможна различная степень детальности разложения каждой фонемы на аллофоны, а аллофонов - на АС. Для примера представим один из возможных вариантов разложения, который является достаточным для обеспечения необходимого многообразия реализаций каждой фонемы и аллофона при лексической интерпретации слитной речи русского языка. A different degree of detail of the decomposition of each phoneme into allophones, and of allophones into AS is possible. As an example, we present one of the possible decomposition options, which is sufficient to provide the necessary variety of realizations of each phoneme and allophone in the lexical interpretation of the coherent speech of the Russian language.
Из русских гласных фонем выбираем множество аллофонов твердых - {А, О, У, Э, И, Ы} и мягких - а также соответствующие им множества назализованных
Для русских согласных необходимо различать губное, зубное, альвеолярное, велярное и латеральное место образования. Таким образом, для описания переходных (начального или конечного) интервалов РС каждого аллофона гласной необходимо иметь до 5-ти различных типов АС. Общее представление каждой гласной фонемы в виде набора АС, необходимых для акустического описания слитной речи русского языка, представлено фиг. 1 на примере гласной /А/. Аналогичным образом предлагается определять три временных интервала РС (начальный, серединный и конечный) для описания согласных звуков.Of the Russian vowel phonemes, we choose a lot of allophones hard - {A, O, Y, E, I, S} and soft - as well as the corresponding sets of nasalized
For Russian consonants, it is necessary to distinguish between the labial, dental, alveolar, velar and lateral places of formation. Thus, to describe the transition (initial or final) MS intervals of each vowel allophone, it is necessary to have up to 5 different types of speakers. A general representation of each vowel phoneme in the form of a set of speakers necessary for the acoustic description of the continuous speech of the Russian language is presented in FIG. 1 by the example of the vowel / A /. Similarly, it is proposed to define three time intervals of the RS (initial, middle and final) for the description of consonants.
Представление русских фонем в виде АС допускает значительное изменение их количества, которое обусловлено эффектом коартикуляции с предшествующей и последующей фонемами. The representation of Russian phonemes in the form of AS allows a significant change in their number, which is due to the effect of co-articulation with the previous and subsequent phonemes.
Пусть V
Формула (1) приобретает конкретный вид для каждой фонемы. Проиллюстрируем это на примере фонемы /А/ для трех АС. Для начального АС:
где: Ω1 = {П, Б, Ф, В, Л} - множество твердых губных и боковых согласных фонем, Ω2 = {Т, Д, С, З, Р, Ц, Ч, Ж, К, Г, Х} - множество твердых зубных, альвеолярных и небных согласных фонем, Ω3 = {П', Б', Ф', В'} - множество мягких губных согласных, Ω4 = { Т', Д', С', З', Р', Ш', Ч'} - множество мягких зубных и альвеолярных согласных фонем, Ω5 = {К', Г', Х'} - множество мягких небных согласных фонем, Ω6 = {Л'} - единичное множество мягких боковых согласных фонем, Ω7 = {М} - единичное множество твердых губных носовых согласных фонем, Ω8 = { Н} - единичное множество твердых зубных носовых согласных фонем, Ω9 = { М'} - единичное множество мягких губных носовых согласных фонем, Ω10 = { Н'} - единичное множество мягких зубных носовых согласных фонем, Ω11 = {А, О, У, Э, И, Ы, #} - множество гласных фонем и паузы.Let V
Formula (1) takes on a specific form for each phoneme. We illustrate this with the phoneme / A / for three speakers as an example. For the initial speaker:
where: Ω 1 = {П, Б, Ф, В, Л} is the set of solid labial and lateral consonant phonemes, Ω 2 = {Т, Д, С, З, Р, Ц, Ч, Ж, К, Г, Х } - the set of hard dental, alveolar and palatine consonant phonemes, Ω 3 = {P ', B', Ф ', В'} - the set of soft labial consonants, Ω 4 = {T ', D', C ', Z', P ', W', H '} - the set of soft dental and alveolar consonant phonemes, Ω 5 = {K', G ', X'} - the set of soft palatine consonant phonemes, Ω 6 = {L '} - the unit set of soft lateral consonant phonemes, Ω 7 = {M} is the unit set of hard labial nasal consonants, Ω 8 = {H} is the unit set of solid dental nasal consonants phonemes, Ω 9 = {M '} is the unit set of soft labial nasal consonant phonemes, Ω 10 = {H'} is the unit set of soft labial nasal consonant phonemes, Ω 11 = {A, O, Y, E, I, S , #} - a lot of vowel phonemes and pauses.
Для серединного АС фонемы /А/ формула (1) имеет вид:
где:
Ω12 = {А, О, У, Э, И, Ы, Л, Р, В, З, Ж, Б, Д, П, Т, Г, Ф, К, С, Ш, Х, Ц} - множество твердых неносовых согласных и гласных фонем, Ω13 = {Л', Р', В', З', Ж', Б', Д', Г', П', Т', К', Ф', С', Ш', Х', Ч'} - множество мягких согласных фонем, Ω14 = {М', Н'} - множество мягких носовых согласных фонем, Ω15 = {М, Н} - множество твердых носовых согласных.For the middle speaker phoneme / A / formula (1) has the form:
Where:
Ω 12 = {A, O, Y, E, I, S, L, P, B, H, G, B, D, R, T, G, F, K, C, W, X, C} - the set solid non-nasal consonants and vowel phonemes, Ω 13 = {L ', P', B ', Z', F ', B', D ', G', P ', T', K ', F', C ', W ', X', H '} - the set of soft consonant phonemes, Ω 14 = {M', H '} - the set of soft nasal consonant phonemes, Ω 15 = {M, H} - the set of hard nasal consonants.
Для конечного АС фонемы /А/ формула (1) имеет вид:
где
Ω1 - Ω10 те же, что и в формуле (2), а множества Ω16 - Ω20 являются единичными и содержат соответственно гласные - {А, О, У, Э, И, Ы}.For the final AS phoneme / A / formula (1) has the form:
Where
Ω 1 - Ω 10 are the same as in formula (2), and the sets Ω 16 - Ω 20 are single and contain respectively vowels - {A, O, Y, E, I, S}.
Аналогично формулам (2), (3), (4) для каждой фонемы могут быть записаны соответствующие выражения с учетом правил их аллофонической изменчивости. Similarly to formulas (2), (3), (4), for each phoneme, corresponding expressions can be written taking into account the rules of their allophonic variability.
На основе вышеизложенного формируется СЛД. Формирование СЛД происходит путем выполнения последовательности операций: создание базы данных слов; представление речевого высказывания как последовательности слов, определение акустического состояния как набор значений параметров временного интервала РС; создание базы данных эталонов акустических состояний для фонетического и фонологического описания русских слов; представление слова как последовательности акустических состояний. Суть этих операций состоит в следующем. Based on the foregoing, SLD is formed. The formation of SLD occurs by performing a sequence of operations: creating a database of words; presentation of the speech utterance as a sequence of words, determination of the acoustic state as a set of parameter values for the time interval of the MS; creation of a database of standards of acoustic states for the phonetic and phonological description of Russian words; representation of a word as a sequence of acoustic states. The essence of these operations is as follows.
1) Создают базу данных слов, необходимую для речевого общения, содержащую номер слова - l, для которого определяются: орфографическое представление, варианты произношений с соответствующими номерами - j. 1) Create a database of words necessary for verbal communication, containing the number of the word - l, for which are defined: spelling representation, pronunciation options with the corresponding numbers - j.
2) Речевое высказывание представляют последовательностью слов, допускающей непрерывное следование произносимых слов друг за другом в любом порядке, либо с разделением паузами, либо с разделением словами, не принадлежащими к заданному набору (базе данных) слов:
W = C
где:
W - речевое высказывание; C - слово;
l - номер слова в базе данных слов l = 0, 1, 2, ..., L;
j - номер произношения l-го слова, j = 0, 1, 2, ..., J;
i - порядковый номер слова в высказывании, i = 1, 2, 3, ..., I;
3) Определяют акустическое состояние как набор значений параметров временного интервала РС:
V = (x1, x2, x3, ...xR) + Q, (6)
где, например: x1= F0 - частота основного тона; x2=A0 - амплитуда основного тона; x2=F1, x4=F2, где F1, F2 - частоты формант; x5=A1, x6=A2 - амплитуды первой и второй формант соответственно; x7=B1, x8=B2 - ширина пропускания первой и второй формант соответственно; x9=Z - число переходов через ноль; x10 - темп произнесения и т.д.; Q - шум.2) A speech utterance is represented by a sequence of words allowing continuous spoken words to be spoken one after another in any order, either with separation by pauses, or with separation of words that do not belong to a given set (database) of words:
W = c
Where:
W is a speech utterance; C is the word;
l is the word number in the database of words l = 0, 1, 2, ..., L;
j is the pronunciation number of the lth word, j = 0, 1, 2, ..., J;
i is the serial number of the word in the statement, i = 1, 2, 3, ..., I;
3) Determine the acoustic state as a set of values of the parameters of the time interval of the PC:
V = (x 1 , x 2 , x 3 , ... x R ) + Q, (6)
where, for example: x 1 = F 0 is the frequency of the fundamental tone; x 2 = A 0 is the amplitude of the fundamental tone; x 2 = F 1 , x 4 = F 2 , where F 1 , F 2 are the frequencies of the formants; x 5 = A 1 , x 6 = A 2 are the amplitudes of the first and second formants, respectively; x 7 = B 1 , x 8 = B 2 - transmission bandwidth of the first and second formant, respectively; x 9 = Z is the number of transitions through zero; x 10 - rate of pronunciation, etc .; Q is the noise.
4) Создают базу данных эталонов акустических состояний, содержащую номер АС, имя АС с набором значений параметров временного интервала речевого сигнала. 4) Create a database of standards of acoustic states containing the number of speakers, the name of the speaker with a set of parameter values for the time interval of the speech signal.
5) Представляют слова, как последовательность акустических состояний:
где
0≤h≤H, 0≤l≤L, 1≤k(j)≤K, 0≤j≤J, 1≤i≤I, (8)
C - слово;
V - акустическое состояние;
i - порядковый номер слова в высказывании, i = 1, 2, 3, ...,I;
h - номер АС в базе данных эталонов АС, h = 0, 1, 2, ..., H;
l - номер слова в базе данных слов, l = 0, 1, 2, ..., L;
j - номер произношения l-го слова, j = 0, 1, 2, ..., J;
b - тип начального АС, выбираемый в соответствии с формулами (1), (2) и в соответствии с произношением j для l-го слова;
e - тип конечного АС, выбираемый в соответствии с формулами (1), (4) и в соответствии с произношением j для l-го слова;
q - индекс, определяющий тип АС, выбираемый в соответствии с формулами (1) - (4) и в соответствии с произношением j для l-го слова; q = 1, 2, 3;
k - число акустических состояний в слове, изменяющееся в зависимости от j для C
Если i=1, то речевое высказывание состоит из одного слова. Тогда:
W = C
где
V
последовательность акустических состояний C
V
Если 1< i≤l, то допустимые V
Where
0≤h≤H, 0≤l≤L, 1≤k (j) ≤K, 0≤j≤J, 1≤i≤I, (8)
C is the word;
V is the acoustic state;
i is the serial number of the word in the statement, i = 1, 2, 3, ..., I;
h is the number of speakers in the database of speaker standards, h = 0, 1, 2, ..., H;
l is the word number in the database of words, l = 0, 1, 2, ..., L;
j is the pronunciation number of the lth word, j = 0, 1, 2, ..., J;
b - the type of initial speaker, selected in accordance with formulas (1), (2) and in accordance with the pronunciation of j for the l-th word;
e is the type of final speaker selected in accordance with formulas (1), (4) and in accordance with the pronunciation of j for the lth word;
q is the index defining the type of speaker selected in accordance with formulas (1) - (4) and in accordance with the pronunciation of j for the l-th word; q is 1, 2, 3;
k is the number of acoustic states in the word, which varies depending on j for C
If i = 1, then the speech utterance consists of one word. Then:
W = c
Where
V
sequence of acoustic states C
V
If 1 <i≤l, then admissible V
Таким образом, каждое слово содержит три участка в речевом высказывании: начальный, серединный и конечный. При этом для фиксированного значения i=1 речевое высказывание состоит из одного слова и содержит начальный и конечный участки речевого высказывания, связанные с паузой, а при 1<i≤I слово C
6) Производят описания переходов из акустических состояний, используя набор фонетических и фонологических правил русского языка и п.1-п.5. 6) Produce descriptions of transitions from acoustic states using a set of phonetic and phonological rules of the Russian language and p.1-p.5.
7) Создают сеть лексического декодирования с учетом п.5, п.6, с последующим формированием базы данных локальных вершин и базы данных граничных вершин. 7) Create a network of lexical decoding taking into
Этапы построения сети лексического декодирования представлены шестью фигурами: фиг. 2 - орфографическое и фонемическое представление лексем, фиг. 3 - моделирующий граф, вершинами которого являются аллофоны, а дугами - указатели на следующие возможные аллофоны; фиг. 4, фиг. 5 - граф альтернативных представлений, вершинами которого являются АС, а дугами - указатели на следующие возможные АС; фиг. 6 - сеть альтернативных представлений, вершинами которой являются АС, а дугами - указатели на следующие возможные АС; фиг. 7 - сеть лексического декодирования, вершинами которой являются АС, а дугами - указатели на следующие возможные акустические состояния. The stages of building a lexical decoding network are represented by six figures: FIG. 2 - spelling and phonemic representation of tokens, FIG. 3 - a modeling graph whose vertices are allophones, and arcs are pointers to the following possible allophones; FIG. 4, FIG. 5 is a graph of alternative representations, the vertices of which are AS, and the arcs are pointers to the following possible AS; FIG. 6 - a network of alternative representations, the vertices of which are AS, and the arcs are pointers to the following possible AS; FIG. 7 - a network of lexical decoding, the vertices of which are speakers, and the arcs are pointers to the following possible acoustic states.
Этапы построения сети лексического декодирования представлены на примере выражений, применимых для управления движением захвата манипулятора влево и вправо, а также указаний вывода программы захвата. Например, "Выведи захват влево", Вывод захвата вправо", "Показать программу захвата", "Покажи программу вывода захвата" и т.д. The stages of constructing a lexical decoding network are presented using an example of expressions applicable to control the capture motion of the manipulator left and right, as well as indications of the output of the capture program. For example, “Take capture to the left,” Output capture to the right, “Show capture program,” “Show capture output program,” etc.
На первом этапе (фиг. 2) определяют необходимый словарь для речевого общения. Определяют орфографическое и фонемическое представление каждой лексемы. На втором этапе (фиг. 3) для каждой лексемы с возможными окончаниями строят моделирующий граф ожидаемых аллофонических представлений, вершинами которого являются аллофоны, а дугами указатели на следующие возможные аллофоны. На фиг. 3 прямоугольниками обозначены вершины с именами аллофонов, а цифрами - номера лексем, соответствующие номерам лексем из фиг. 2. После этого последовательность аллофонов замещают последовательностью акустических состояний (фиг. 4, фиг. 5) для всех лексических единиц применяемого словаря с возможными окончаниями и строят их в виде дерева решений. При этом слова, имеющие одинаковые первые звуки, помещают в одной и той же начальной вершине дерева. Например, слова "покажи" и "программа" имеют первый общий звук - "п". Далее все возможные окончания каждого слова соединяются с корнем дерева и с помощью фонологических правил строится сеть альтернативных представлений для всех возможных (грамматически правильных и неправильных) последовательностей слов из словаря. Фрагмент сети альтернативных представлений изображен на фиг. 6. At the first stage (Fig. 2) determine the necessary dictionary for verbal communication. The spelling and phonemic representation of each token is determined. At the second stage (Fig. 3), for each token with possible endings, a modeling graph of the expected allophonic representations is constructed, the vertices of which are allophones, and the arcs indicate the next possible allophones. In FIG. 3, rectangles indicate the vertices with the names of allophones, and the numbers indicate the numbers of tokens corresponding to the numbers of tokens from FIG. 2. After this, the sequence of allophones is replaced by a sequence of acoustic states (Fig. 4, Fig. 5) for all lexical units of the dictionary used with possible endings and build them in the form of a decision tree. In this case, words having the same first sounds are placed in the same initial vertex of the tree. For example, the words “show” and “program” have the first common sound - “p”. Further, all possible endings of each word are connected to the root of the tree and, using phonological rules, a network of alternative representations is constructed for all possible (grammatically correct and incorrect) sequences of words from the dictionary. A fragment of a network of alternative representations is depicted in FIG. 6.
В результате применения фонологических правил образуются локальные и граничные вершины. As a result of applying phonological rules, local and boundary vertices are formed.
Локальной вершиной следует считать объект, связанный с АС типа V
Граничной вершиной следует считать локальную вершину, связанную с переходными АС типа V
На завершающем этапе построения СЛД корень сети альтернативных представлений соединяется со всеми граничными вершинами. At the final stage of building an SLD, the root of the network of alternative representations is connected to all boundary vertices.
Таким образом, получают СЛД, которая представляет собой словарь со встроенным фонетическим транскриптором, правилами фонологии и лексикой для заданного набора слов. Фрагмент сети лексического декодирования представлен на фиг. 7. На фиг. 4 - фиг. 7 прямоугольниками обозначены вершины с именами АС, а цифрами - разрывы соединений. Thus, they get SLD, which is a dictionary with a built-in phonetic transcriptor, phonology rules and vocabulary for a given set of words. A fragment of a lexical decoding network is shown in FIG. 7. In FIG. 4 - FIG. 7 rectangles indicate the vertices with the names of the speakers, and the numbers indicate breaks in the connections.
В соответствии с фиг. 7 начальная (корневая) вершина представляет собой паузу. Каждая вершина в столбце СЛД представляет собой объект, связанный с одним участком квантованного высказывания (фразы). Каждая вершина во втором столбце содержит АС, связанное со следующими возможными состояниями и т.д. Каждая вершина допускает переход в саму себя и минуя себя (на фиг. 7 это не показано, чтобы не загромождать схему). Это приводит к тому, что две и более вершины могут быть связаны с одним и тем же АС. Таким образом, в процессе выделения V могут возникнуть дополнительные АС, в то время как отсутствие АС приводит к существенным проблемам. Поэтому потенциально отсутствующие АС должны рассматриваться как дополнительные в процессе создания СЛД. In accordance with FIG. 7 the initial (root) vertex is a pause. Each vertex in the SLD column is an object associated with one section of a quantized statement (phrase). Each vertex in the second column contains ASs associated with the following possible states, etc. Each vertex admits a transition into itself and bypassing itself (in Fig. 7 this is not shown so as not to clutter up the circuit). This leads to the fact that two or more vertices can be associated with the same AS. Thus, in the process of isolating V, additional ASs may arise, while the absence of ASs leads to significant problems. Therefore, potentially absent speakers should be considered as additional in the process of creating an SLD.
Такая сеть явным образом учитывает коартикуляционные эффекты, возникающие как внутри слов, так и на их границах, и позволяет, минуя уровень фонетического преобразования, формировать возможные варианты лексической интерпретации входного высказывания слитной речи. Such a network explicitly takes into account the co-articulation effects that occur both inside words and at their borders, and allows, bypassing the level of phonetic transformation, to form possible variants of the lexical interpretation of the input statement of continuous speech.
Для определения возможных вариантов лексической интерпретации исходного выражения необходимо отыскать оптимальную последовательность вершин (путь) в СЛД. СЛД использует такое представление словаря, при котором объединены общие части различных слов. Поэтому процедура просмотра всего словаря легко реализуема с вычислительной точки зрения и не требует отдельного рассмотрения каждого слова. При этом акустико-фонетические знания проявляются в удобной и доступной форме, упрощающей процесс оптимизации выбора наилучшего пути. To determine the possible variants of the lexical interpretation of the original expression, it is necessary to find the optimal sequence of vertices (path) in the SLD. SLD uses a vocabulary representation that combines the common parts of different words. Therefore, the procedure for viewing the entire dictionary is easily implemented from a computational point of view and does not require a separate consideration of each word. At the same time, acoustic-phonetic knowledge is manifested in a convenient and accessible form that simplifies the process of optimizing the choice of the best path.
На основе вышеизложенного создают базу данных локальных и базу данных граничных вершин. При этом каждой вершине присваивают весовой коэффициент η исходя из АС. Далее производят классификацию вершин по возрастанию весового коэффициента η (с соответствующей перенумерацией). В итоге, номер граничной вершины в базе данных граничных вершин (БДГВ) определяет номер вершины в базе данных локальных вершин (БДЛВ). Пример структуры данных, применяемый в БДЛВ представлен фиг. 8. Based on the foregoing, a database of local and a database of boundary vertices is created. In this case, each vertex is assigned a weight coefficient η based on the AS. Next, vertices are classified by increasing the weight coefficient η (with the corresponding renumbering). As a result, the number of the boundary vertex in the database of boundary vertices (BDGV) determines the number of vertices in the database of local vertices (BDLV). An example of the data structure used in the WLD is shown in FIG. eight.
Предлагаемый способ лексической интерпретации слитной речи, основанный на применении СЛД, реализует последовательное сокращение исходного множества эталонов АС и слов по критериям акустического подобия. The proposed method of lexical interpretation of continuous speech, based on the use of SLD, implements a sequential reduction of the initial set of speakers and words according to the criteria of acoustic similarity.
Суть его состоит в следующем. Произносят речевое высказывание, которое оцифровывают через фиксированные интервалы времени с заданной частотой квантования в этом интервале. Далее берут выборки этого акустического оцифрованного сигнала, по совокупности которых вычисляют весовой коэффициент η . По этому коэффициенту определяют вероятную область поиска вершин в БДЛВ. Одновременно по полученной совокупности выборок вычисляют текущее АС - VТ. Находят вершины в БДЛВ с эталонными АС - VЭ, подобными VТ. Если VТ не подобна эталонным АС ожидаемых вершин в БДЛВ, то производится коррекция области поиска ожидаемых вершин в БДЛВ. Если не удается найти эталонные АС ожидаемых вершин в БДЛВ подобные VТ, то поиск производят в БДГВ. Если вершины с эталонными АС, подобными VТ, обнаружены, то по оценкам меры близости текущего АС и ожидаемых эталонов, формируют гипотезы о словах, акустически схожими своими начальными АС на текущее. После этого из множества сформировавшихся к этому моменту гипотез о словах отбирают эталоны, акустически схожие своими следующими эталонными АС-ми на следующее текущее АС. При этом производят формирование последовательностей слов с учетом чередования границ, составляющих их слов согласно с (7), (10). Если не удается найти эталонные АС подобные VТ, ни в БДЛВ, ни в БДГВ, то производят добавление соответствующих меток в формируемые последовательности слов, которые свидетельствуют о не найденных АС и соответствующих им слов. Этот процесс продолжается до тех пор, пока не будет обнаружена межфразовая пауза. Полученные к этому моменту последовательности слов составляют набор возможных лексических гипотез или вариантов лексической интерпретации входного высказывания. Этот набор лексических гипотез может быть подвергнут дальнейшему анализу по грамматическим, синтаксическим, семантическим и прагматическим критериям.Its essence is as follows. A speech utterance is uttered, which is digitized at fixed time intervals with a given quantization frequency in this interval. Next, take samples of this acoustic digitized signal, the totality of which calculate the weight coefficient η. This coefficient determines the probable search area for vertices in the BDLV. At the same time, the current AS - V T is calculated from the obtained set of samples. Find a vertex in BDLV with reference AC - V e, V T like. If V T is not similar to the reference AS of the expected vertices in the BDLF, then the correction of the search area of the expected vertices in the BDLF is performed. If it is not possible to find the reference speakers of the expected vertices in the BDLVs like V T , then the search is performed in the BDGVs. If vertices with reference speakers similar to V T are found, then according to estimates of the proximity measure of the current speaker and expected standards, hypotheses are formed about words that are acoustically similar in their initial speakers to the current one. After that, from the set of hypotheses about words that have been formed at this point, samples are selected that are acoustically similar in their next reference speakers to the next current speaker. In this case, sequences of words are formed taking into account the alternation of boundaries that make up their words in accordance with (7), (10). If it is not possible to find reference speakers like V T , neither in BDLV, nor in BDGV, then add the corresponding labels in the generated word sequences, which indicate not found speakers and their corresponding words. This process continues until an interphrase pause is detected. The sequences of words obtained at this point constitute a set of possible lexical hypotheses or variants of the lexical interpretation of the input statement. This set of lexical hypotheses can be subjected to further analysis according to grammatical, syntactic, semantic and pragmatic criteria.
Описание системы лексической интерпретации слитной речи (СЛИСР) русского языка, реализующей предлагаемый способ включает в себя одиннадцать фигур; фиг. 9 - структурная схема системы, фиг. 10 - структурная схема блока акустического анализатора, фиг. 11 - структурная схема блока лексического анализатора, фиг. 12 - фиг. 19 - блок-схема алгоритма работы СЛИСР. Description of the system of lexical interpretation of continuous speech (SLISR) of the Russian language that implements the proposed method includes eleven figures; FIG. 9 is a structural diagram of a system, FIG. 10 is a block diagram of an acoustic analyzer unit; FIG. 11 is a block diagram of a lexical analyzer block; FIG. 12 - FIG. 19 is a flowchart of the SLISR operation algorithm.
Система лексической интерпретации слитной речи, использующая СЛД и структуру данных, изображенную на фиг. 8, представлена на фиг. 9. Она состоит из акустического анализатора, представленного блоком 1, и лексического анализатора, представленного блоком 2. Система позволяет формировать варианты возможных последовательностей слов, соответствующие произнесенному высказыванию на основе информации о последовательности выявленных акустических состояний. The lexical interpretation system of continuous speech using the SLD and the data structure shown in FIG. 8 is shown in FIG. 9. It consists of an acoustic analyzer represented by
Блок 1 предназначен для определения акустических состояний в звуковых сигналах и содержит два входа и два выхода.
Блок 2 предназначен для определения слов из заданного словаря акустически схожих с произнесенными и содержит два входа и два выхода. Вход 1 блока 1 соединен с микрофоном, а вход 2 соединен с выходом 2 блока 2. Выходы 1 и 2 блока 1 соединены со входами 1 и 2 блока 2 соответственно. С выхода 1 блока 2 получают искомый результат.
Блок 1, структурная схема которого представлена на фиг. 10, содержит: блок 3 - предварительной обработки, блок 4 - частотный анализатор спектра, блок 5 - буфер памяти значений спектра, блок 6 - вычислитель весового коэффициента η , блок 7 - вычислитель текущего акустического состояния VТ.
Блок 2, структурная схема которого представлена на фиг. 11, содержит: блок 8 - определитель ожидаемых акустических состояний, блок 9 - сравнения с эталоном, блок 10 - блок памяти 1, блок 11 - блок управления, блок 12 - блок выбора оптимальной оценки и маркировки вершин, блок 13 - блок хранения базы данных граничных вершин, блок 14 - блок проверки, блок 15 - блок памяти 2, блок 16 - блок хранения базы данных локальных вершин, блок 17 - блок хранения базы данных акустических состояний, блок 18 - блок хранения базы данных слов, блок 19 - формирователь лексических гипотез, блок 20 - блок памяти 3, блок 21 - блок вывода.
Блок 3 предназначен для оцифровки и фильтрации акустических сигналов.
Блок 8 предназначен для приема данных с блока 6, блока 11 и блока 16, организации запросов данных в блоках 13 и 16, а также выдачи данных, связанных с определением следующих возможных вершин с их номерами и параметрами АС.
Блок 9 предназначен для вычисления оценки степени совпадения между акустическими характеристиками ожидаемых эталонов АС и текущего участка речевого сигнала.
Блок 10 предназначен для временной записи, хранения, чтения и передачи оценок степени совпадения между акустическими характеристиками ожидаемых эталонов АС и текущего участка речевого сигнала, а также вершин, к которым они принадлежат.
Блок 11 предназначен для формирования запросов данных о вершинах с помощью блоков 8, 12, 14, 15, 19, а также управления блоками 10, 15, 20.
Блок 12 предназначен для выбора наилучшей оценки степени совпадения, с соответствующими номерами вершин, имеющихся блоке 10, а также маркирования вершин.
Блок 14 предназначен для проверки вершин на содержание не нулевых значений двоичных кодов "паузы" и "границы".
Блок 15 предназначен для временной записи, хранения, чтения и передачи возможных вершин с акустическими состояниями, подобными текущему участку речевого сигнала.
Блок 19 предназначен для формирования вариантов последовательностей слов акустически подобных произнесенному высказыванию.
Блок 20 предназначен для временной записи, хранения, чтения и передачи вариантов последовательностей слов (лексических гипотез) акустически подобных произнесенному высказыванию. \
Блок 21 предназначен для вывода результатов лексической интерпретации слитной речи.
Работа системы лексической интерпретации слитной речи осуществляется следующим образом (см. фиг. 9, 10). Входное высказывание с микрофона поступает на вход блока 3 акустического анализатора 1. Блок 3 преобразует входные сигналы в цифровую форму и выполняет их фильтрацию. Далее сигналы с выхода блока 3 подаются на вход блока 4 для выделения частотного спектра. Сигналы с выхода блока 4 подаются на вход блока 5. С выхода блока 5 сигналы поступают на вход 1 блока 6 и вход 1 блока 7. The work of the lexical interpretation system of continuous speech is as follows (see Fig. 9, 10). The input statement from the microphone is fed to the input of
Блок 6 вычисляет весовой коэффициент η , применяемый для поиска входной вершины первого столбца СЛД (см. фиг. 11, фиг. 7). Вычисленное значение весового коэффициента с выхода 2 блока 6 поступает на вход 2 блока 8. С выхода 2 блока 8 значение весового коэффициента η поступает на вход 3 блока 16. С выхода 3 блока 16 значение номера ближайшей вершины поступает на вход 3 блока 8. Далее блок 8 определяет номера вершин nmin и nmax, обозначающие соответственно верхнюю и нижнюю границы области, в которой необходимо проводить поиск начального акустического состояния. После этого блок 8 формирует запросы данных о вершинах, номера которых принадлежат области поиска начального акустического состояния и посылает их со своего выхода 2 на вход 3 блока 16. По принятым номерам вершин блок 16 определяет соответствующие номера эталонных акустических состояний VЭ, их имена и значения параметров АС. Блок 16 со своего выхода 3 подает эти данные на вход 3 блока 8. На выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.
Блок 7 вычисляет текущие значения параметров АС состояния VТ и со своего выхода подает их на вход 1 блока 9. Одновременно с этим блок 8, определив значения параметров ожидаемых эталонов АС - VЭ, вместе с соответствующими номерами вершин, со своего выхода 1 последовательно, начиная с VЭ с номером вершины nmin подает их на вход 2 блока 9.
Блок 9 вычисляет оценку α-степени совпадения текущего и эталонного акустического состояния. Значение этой оценки, вместе с соответствующим номером вершины, с выхода блока 9 поступает на вход 1 блока 10.
Блок 11 проверяет содержание блока 10 на достижение верхней границы области поиска nmax. Если nmax не достигнута, то происходит дальнейшее сравнение ожидаемых АС с текущим. Если nmax достигнута, то с выхода 6 блока 11 передаются данные, содержащиеся в блоке 10, которые поступают на вход блока 12.
Блок 12 проверяет данные, поступающие с блока 10 через блок 11 на наличие оценки α, превышающей пороговое значение ε. Если таковой оценки не найдено, то блок 12 анализирует возрастание (убывание) α с возрастанием nmin. После этого на выходе 2 блока 12 формируются сигналы, изменяющие границы области поиска, которые поступают на вход 5 блока 11. Блок 11, изменив границы поиска на своем выходе 1, формирует сигнал управления, который поступает на вход 2 блока 10 и производит обнуление содержимого блока 10. Одновременно на выходе 1 блока 11 формируется сигнал, поступающий на вход 1 блока 8, который разрешает определение следующей возможной вершины. В случае, когда VЭ акустически подобных VТ блок 8 в блоке 16 не обнаружил, то блок 8 производит их поиск в блоке 13.
Если оценка α, превышающая пороговое значение ε не найдена и превышены ограничения на допустимую область поиска в блоке 13 и блоке 16, то блок 12 на выходе 1 формирует данные, определяющие VТ как предыдущее АС вершины с именем previous. В этом случае вершине с именем previous присваивается метка неизвестного АС. На выходе 2 блока 12 формируется сигнал, информирующий о неизвестном АС, который поступает на вход 5 блока 11. Блок 11 на выходе 5 формирует управляющий сигнал, который поступает на вход 2 блока 15. По этому сигналу блок 15 на входе 1 принимает информацию, поступающую с выхода 1 блока 12 через блок 14.If the estimate α exceeding the threshold value ε is not found and the limits on the permissible search region in
Блок 11 с выхода 5 посылает сигнал на вход 2 блока 15. Блок 11 на входе 3 принимает данные с выхода 2 блока 15. Далее блок 11 производит проверку этих данных на содержание вершины с именем previous.
Если вершина с именем previous не содержит информацию о VЭ акустически подобном VТ, то блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. В этом случае на выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. Блок 6 с выхода 2, вычислив весовой коэффициент η , подает его на вход 2 блока 8. С выхода 2 блока 8 значение весового коэффициента η поступает на вход 3 блока 16. С выхода 3 блока 16 на вход 3 блока 8 поступает значение номера ближайшей вершины. Далее блок 8 определяет номера вершин nmin и nmax, обозначающие соответственно верхнюю и нижнюю границы области, в которой необходимо проводить поиск начального акустического состояния. После этого блок 8 формирует запросы данных о вершинах, номера которых принадлежат области поиска начального акустического состояния и посылает их со своего выхода 2 на вход 3 блока 16. По принятым номерам вершин блок 16 определяет соответствующие номера эталонных акустических состояний - VЭ, их имена и значения параметров АС. Блок 16 со своего выхода 3 подает эти данные на вход 3 блока 8. На выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.If the vertex with the name previous does not contain information about V акуст acoustically similar to V T , then block 11 at
Блок 7 вычисляет текущие значения параметров АС состояния VТ и со своего выхода подает их на вход 1 блока 9. Одновременно с этим блок 8, определив значения параметров ожидаемых эталонов АС - VЭ, вместе с соответствующими номерами вершин, со своего выхода 1 последовательно, начиная с VЭ с номером вершины nmin подает их на вход 2 блока 9.
Если вершина с именем previous содержит информацию о VЭ акустически подобном VТ, то блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. В этом случае на выходе 4 блока 8 формируется сигнал разрешения, поступающий на вход 2 блока 6. В свою очередь блок 6 на выходе 1 формирует сигнал разрешения, поступающий на вход 2 блока 7.If the vertex with the name previous contains information about V акуст acoustically similar to V T , then block 11 at
Одновременно блок 7 вычисляет текущее значение акустического состояния VТ, а блок 8 определяет вершины с ожидаемыми VЭ, следующими за вершиной previous в блоке 16. Значения параметров VЭ вместе с соответствующими номерами вершин с выхода 1 блока 8 последовательно поступают на вход 2 блока 9, а значение VТ с выхода блока 6 поступает на вход 1 блока 9.Simultaneously, the
Если блок 12, проверив содержание блока 10, обнаружил оценку α, превышающую пороговое значение ε, то блок 12 принимает значение α в качестве оптимальной - αopt. В этом случае блок 12 переопределяет номер вершины, соответствующий αopt как оптимальный - nopt, маркирует значение nopt именем current и передает его с выхода 1 на вход 1 блока 14. Блок 14 на выходе 2 формирует запрос двоичных кодов вершины и подает его на вход 2 блока 16. С выхода 1 блока 16 на вход 2 блока 14 поступают значение номера вершины, по которому проводился запрос, а также значения двоичных кодов "паузы" и "границы". Блок 14 проверяет значения двоичных кодов у поступившей вершины. После этого на выходе 3 блока 14 формируется сигнал, поступающий на вход 4 блока 11, по которому блок 11 с выхода 5 подает на вход 2 блока 15 сигнал, разрешающий блоку 15 на входе 1 принять данные с выхода 1 блока 14. Блок 19 на своем входе 2 производит чтение данных с выхода 1 блока 15.If
Если вершина current - не пауза, то блок 19 с выхода 2 подает значение номера вершины на вход 1 блока 16, по которому блок 16 с выхода 2 посылает на вход 3 блока 19 номер вершины, а также список слов с соответствующими признаками их окончания, связанный с этим номером. Блок 19 на основе принятых слов формирует массив (список) соответствующих последовательностей, каждой из которой присваивает имя PreviousPhrase и соответствующий этому имени номер. Далее блок 19 с выхода 1 записывает сформированный массив последовательностей слов, с соответствующими именами и номерами на вход 1 блока 20. На выходе 3 блока 19 формируется сигнал, поступающий на вход 2 блока 11, по которому блок 11 присваивает значение вершины с именем current переменной previous и с выхода 5 производит его запись в блок 15. После этого блок 11 на выходе 2, подготовив сигнал, по которому будет производиться обработка следующего (нового) участка РС, подает его на вход 1 блока 8. If the current peak is not a pause, then block 19 from
Если вершина current - пауза, то блок 19 с выхода 3 подает на вход 2 блока 11 сигнал, по которому блок 11 на выходе 3 формирует разрешающий сигнал и подает его на вход 1 блока 21. По этому сигналу блок 21 производит чтение данных с выхода блока 20 и выводит результаты вариантов возможных последовательностей слов, акустически схожих с произнесенным высказыванием. If the current peak is a pause, then block 19 from
Более подробный алгоритм работы СЛИСР представлен блок-схемой на фиг. 12 - фиг. 19. Условные обозначения в представленном алгоритме приведены на страницах 29 - 31. A more detailed algorithm for the operation of SLISR is presented in the flowchart of FIG. 12 - FIG. 19. Conventions in the presented algorithm are given on pages 29 - 31.
Предлагаемая СЛИСР, использующая СЛД, по своей сути позволяет отслеживать несколько акустически схожих траекторий (последовательностей вершин), из которых можно выбирать наиболее оптимальную. Для этого необходимо модернизировать лексический анализатор путем введения в него блока выбора траектории. The proposed SLISR, which uses SLD, in essence allows you to track several acoustically similar trajectories (sequences of vertices) from which you can choose the most optimal one. For this, it is necessary to modernize the lexical analyzer by introducing a path selection block into it.
Система ведет поиск, перебирая все допустимые вершины (либо только в выделенной области), содержащие АС, которые могут следовать за начальной. Поиск оптимальной последовательности АС осуществляется в пределах некоторой части СЛД. В связи с тем, что на каждом шаге обработки входных данных перебирается несколько возможных вариантов АС, отпадает необходимость возврата назад. The system searches by sorting all the valid vertices (or only in the selected area) containing speakers that can follow the initial one. The search for the optimal AS sequence is carried out within a certain part of the SLD. Due to the fact that at each step of processing the input data several possible speaker options are selected, there is no need to go back.
Преимущества предлагаемой системы состоят в том, что она позволяет с более высоким быстродействием и более высокой вероятностью проводить лексическую интерпретацию слитной речи. The advantages of the proposed system are that it allows lexical interpretation of continuous speech with higher speed and higher probability.
Блок 3 представляет собой стандартный аналого-цифровой преобразователь для ввода акустических сигналов в ЭВМ и набор фильтров, который может быть реализован как аппаратно, так и программно. Блоки 5, 10, 13, 15, 16, 17, 18, 20 - являются блоками памяти и могут быть выполнены, как, например, в виде запоминающих: устройств, плат, узлов и т.д. и в зависимости от объема используемых слов могут быть реализованы на основе больших, средних и малых интегральных схем, с соответствующей им периферией или на основе накопителей на магнето-оптических, электронных дисках, и т.д. с соответствующей им периферией. Блоки 4, 6 - 9, 11, 12, 14, 19 могут быть реализованы как аппаратно, так и программно. Программная реализация этих блоков представлена в виде блок-схемы алгоритма работы на фиг. 12 - 19. Блок 21 может быть реализован в виде устройства с визуальным отображением информации (например, дисплей), с соответствующей ему периферией или в виде интерфейса, обеспечивающего логическое или физическое взаимодействие СЛИСР и системы: распознавания или понимания речи, управления технологическим оборудованием или роботом, средствами вычислительной техники, автоматического речевого перевода и др.
Условные обозначения
Previous - предыдущая вершина;
Current - текущая вершина;
Size - размер массива (списка) следующих возможных вершин;
Edge - размер массива (списка) граничных вершин;
SizeWord - размер массива (списка) ожидаемых слов;
SizePhrase - размер массива (списка) ожидаемых последовательностей слов;
NewSizePhrase - размер нового массива (списка)ожидаемых последовательностей слов;
Words[] - массив (список) ожидаемых слов;
PreviousPhrase[] - массив (список) предыдущих последовательностей слов;
NewPhrase[] - новый массив (список) ожидаемых последовательностей слов;
zPhrase - счетчик нулевых последовательностей слов;
CurrentPhrase - текущая последовательностей слов;
CurPhraseWord - последнее слово из последовательности CurrentPhrase;
Ptr - индикатор текущей вершины массива следующих возможных вершин, исходящих из предыдущей вершины Previous;
WordPtr - указатель текущего (ожидаемого) слова;
PhrasePtr - указатель текущей (ожидаемой) последовательности слов;
NewPhrasePrt - указатель новой (ожидаемой) последовательности слов;
- символ окончания слова;
⊕ - символ конкатенации (склейки);
Unknown - метка не найденного АС;
η - весовой коэффициент;
n - номер ближайшей вершины;
Vт - текущее АС;
Vэ - эталонное АС;
λ - коэффициент, определяющий смещение границ области поиска;
nmin - номер вершины, обозначающий нижнюю границу области поиска;
- номер вершины, обозначающий критическое значение нижней границы области поиска;
nmax - номер вершины, обозначающий верхнюю границу области поиска;
- номер вершины, обозначающий критическое значение верхней границы области поиска;
α - оценка степени совпадения текущего и эталонного акустического состояния;
ε - пороговое значение оценки степени совпадения текущего и эталонного акустического состояния;
αopt - оптимальное значение оценки степени совпадения текущего и эталонного акустического состояния;
nopt - номер вершины, соответствующий αopt
Библиографические данные
1. Lesser V.R., Fennel R.D., Erman L.D., Reddy D.R., Organization of the HEARSAY II Speech Understanding System, IEEE Trans. ASSP, 23, 1, pp. 11-24, 1975.Legend
Previous - previous vertex;
Current - current peak;
Size - the size of the array (list) of the following possible vertices;
Edge - the size of the array (list) of boundary vertices;
SizeWord - the size of the array (list) of expected words;
SizePhrase - the size of the array (list) of expected sequences of words;
NewSizePhrase - size of the new array (list) of expected sequences of words;
Words [] - an array (list) of expected words;
PreviousPhrase [] - an array (list) of previous sequences of words;
NewPhrase [] - a new array (list) of expected sequences of words;
zPhrase - counter of zero sequences of words;
CurrentPhrase - current word sequences;
CurPhraseWord - the last word from the CurrentPhrase sequence;
Ptr - indicator of the current vertex of the array of the next possible vertices coming from the previous vertex Previous;
WordPtr - pointer to the current (expected) word;
PhrasePtr - pointer to the current (expected) sequence of words;
NewPhrasePrt - pointer to a new (expected) sequence of words;
- the word ending symbol;
⊕ - symbol of concatenation (gluing);
Unknown - label of the speaker not found;
η is the weight coefficient;
n is the number of the nearest vertex;
V t - current speaker;
V e - reference speaker;
λ is a coefficient determining the displacement of the boundaries of the search region;
n min is the vertex number denoting the lower boundary of the search region;
- the vertex number denoting the critical value of the lower boundary of the search area;
n max is the vertex number denoting the upper boundary of the search region;
- the vertex number denoting the critical value of the upper boundary of the search area;
α - assessment of the degree of coincidence of the current and reference acoustic state;
ε is the threshold value for assessing the degree of coincidence of the current and reference acoustic state;
α opt is the optimal value for assessing the degree of coincidence of the current and reference acoustic state;
n opt is the vertex number corresponding to α opt
Bibliographic data
1. Lesser VR, Fennel RD, Erman LD, Reddy DR, Organization of the HEARSAY II Speech Understanding System, IEEE Trans. ASSP, 23, 1, pp. 11-24, 1975.
2. Baker J. K., The DRAGON System - An overview, IEEE Trans. ASSP, 23, No. 1. February, 1975, pp. 24 - 29. 2. Baker J. K., The DRAGON System - An overview, IEEE Trans. ASSP, 23, No. February 1, 1975, pp. 24 - 29.
3. Klowstad J. W. , Mondshein L. F., The CASPERS Linguistic Analysys System, IEEE Trans. ASSP, 23, No. 1. February, 1975, pp. 118 - 123. 3. Klowstad J. W., Mondshein L. F., The CASPERS Linguistic Analysys System, IEEE Trans. ASSP, 23, No. February 1, 1975, pp. 118 - 123.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU97117246A RU2119196C1 (en) | 1997-10-27 | 1997-10-27 | Method and system for lexical interpretation of fused speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU97117246A RU2119196C1 (en) | 1997-10-27 | 1997-10-27 | Method and system for lexical interpretation of fused speech |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2119196C1 true RU2119196C1 (en) | 1998-09-20 |
RU97117246A RU97117246A (en) | 1999-01-10 |
Family
ID=20198155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU97117246A RU2119196C1 (en) | 1997-10-27 | 1997-10-27 | Method and system for lexical interpretation of fused speech |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2119196C1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003034281A1 (en) * | 2001-10-19 | 2003-04-24 | Intel Zao | Method and apparatus to provide a hierarchical index for a language model data structure |
US8301436B2 (en) | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
RU2688277C1 (en) * | 2016-02-05 | 2019-05-21 | ГУГЛ ЭлЭлСи | Re-speech recognition with external data sources |
-
1997
- 1997-10-27 RU RU97117246A patent/RU2119196C1/en active
Non-Patent Citations (1)
Title |
---|
Leser V.R., Fennel R.D., Erman L.D., Reddy D.R. Organization of the HEARSAY II, Speech Understanding System, IEEE Trans, ASSP, 23, 1, p.p.11 - 24, 1975. Baker I.K., The DRAGON System - An Overtien, IEEE Trans, ASSP, 23, N 1, February, 1975, pp. 24 - 29. Klowstad J.W., Mondshein L.F., The CASPERS Linguistic Analysys System, IEEE Trans, ASSP, 23, N 1, February, 1975, pp.118 - 123. * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003034281A1 (en) * | 2001-10-19 | 2003-04-24 | Intel Zao | Method and apparatus to provide a hierarchical index for a language model data structure |
US8301436B2 (en) | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
RU2688277C1 (en) * | 2016-02-05 | 2019-05-21 | ГУГЛ ЭлЭлСи | Re-speech recognition with external data sources |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | Speech recognition using articulatory and excitation source features | |
Klatt | Speech perception: A model of acoustic–phonetic analysis and lexical access | |
JP4351385B2 (en) | Speech recognition system for recognizing continuous and separated speech | |
EP0619911B1 (en) | Children's speech training aid | |
EP1139332A2 (en) | Spelling speech recognition apparatus | |
JPH09500223A (en) | Multilingual speech recognition system | |
CN111862954B (en) | Method and device for acquiring voice recognition model | |
JP2004526197A (en) | Transcription and display of input audio | |
KR20060043845A (en) | Improving new-word pronunciation learning using a pronunciation graph | |
CN112466279B (en) | Automatic correction method and device for spoken English pronunciation | |
Al-Bakeri et al. | ASR for Tajweed rules: integrated with self-learning environments | |
JP4600706B2 (en) | Voice recognition apparatus, voice recognition method, and recording medium | |
RU2119196C1 (en) | Method and system for lexical interpretation of fused speech | |
CN115424604A (en) | Training method of voice synthesis model based on confrontation generation network | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
Martinčić–Ipšić et al. | Acoustic modelling for Croatian speech recognition and synthesis | |
JP5028599B2 (en) | Audio processing apparatus and program | |
RU2101782C1 (en) | Method for recognition of words in continuous speech and device which implements said method | |
Ng | Survey of data-driven approaches to Speech Synthesis | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Colton | Confidence and rejection in automatic speech recognition | |
Mon | Myanmar language continuous speech recognition using convolutional neural network (CNN) | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Kurian | Development of Speech corpora for different Speech Recognition tasks in Malayalam language | |
Thilak et al. | Speech recognizer for Tamil language |