RU2113726C1 - Computer equipment for reading of printed text - Google Patents

Computer equipment for reading of printed text Download PDF

Info

Publication number
RU2113726C1
RU2113726C1 RU96115319A RU96115319A RU2113726C1 RU 2113726 C1 RU2113726 C1 RU 2113726C1 RU 96115319 A RU96115319 A RU 96115319A RU 96115319 A RU96115319 A RU 96115319A RU 2113726 C1 RU2113726 C1 RU 2113726C1
Authority
RU
Russia
Prior art keywords
block
unit
words
text
selector
Prior art date
Application number
RU96115319A
Other languages
Russian (ru)
Other versions
RU96115319A (en
Inventor
С.А. Золотов
Н.Н. Калинин
А.Н. Балахонцев
Original Assignee
Акционерное общество закрытого типа Научно-производственное предприятие - центр "Реабилитация"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество закрытого типа Научно-производственное предприятие - центр "Реабилитация" filed Critical Акционерное общество закрытого типа Научно-производственное предприятие - центр "Реабилитация"
Priority to RU96115319A priority Critical patent/RU2113726C1/en
Application granted granted Critical
Publication of RU2113726C1 publication Critical patent/RU2113726C1/en
Publication of RU96115319A publication Critical patent/RU96115319A/en

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

FIELD: computer engineering, in particular, information source for blinds and Russian language education. SUBSTANCE: device has unit 1 for optical input of printed text, optical text recognition unit 2, voice synthesis unit 5 from orthography text, speech signal generator (it is not shown on the drawing) and terminal audio unit 6. Goal of invention is achieved by design of unit 1 as scanner, design of unit 5 as unit which generates Russian speech from orthography text. In addition device has text file unification unit 3, text database unit 4, touch-sensitive display 8, interface 7 between touch-sensitive display and personal computer, interface unit 9. EFFECT: increased quality of Russian speech synthesis. 29 cl, 14 dwg

Description

Изобретение относится к вычислительной технике и может использоваться в качестве источника информации для слепых и слабовидящих людей, а также в качестве средства для обучения русскому языку. The invention relates to computer technology and can be used as a source of information for blind and visually impaired people, and also as a means for teaching the Russian language.

Для людей, потерявших зрение или с отсутствием зрения, одной из важных проблем является задача самостоятельного получения информации, так как такие обычные источники информации, как книги, журналы и др. для них недоступны, специальная информация вообще отсутствует, а периодические источники информации из-за нерегулярного перевода становятся для них непериодическими. For people who have lost their sight or with a lack of vision, one of the important problems is the task of independently obtaining information, since such ordinary sources of information as books, magazines, etc. are not available to them, there is no special information at all, and periodic sources of information due to irregular transfers become non-periodic for them.

Известное средство для получения незрячими информации в виде печатной продукции с использованием рельефно-точечной системы Брайля [1] обладает определенными недостатками. Такие книги занимают большой объем из-за рельефной печати, легко повреждаются при хранении и при чтении из-за механического контакта, кроме того, номенклатура их минимальна по сравнению с обычной печатной продукцией, не говоря уже об оперативности получения информации. Наконец, число незрячих, владеющих системой Брайля, имеет тенденцию к сокращению. A well-known tool for obtaining blind information in the form of printed products using a braille-relief system [1] has certain disadvantages. Such books occupy a large volume due to embossed printing, are easily damaged during storage and when reading due to mechanical contact, in addition, their nomenclature is minimal compared to conventional printed products, not to mention the speed of obtaining information. Finally, the number of blind people who own a Braille system tends to decrease.

Другим известным средством для получения информации незрячими является так называемая "говорящая книга", представляющая собой магнитную ленту, на которую записаны тексты книг, журналов, газет и др. [2]. Another well-known means for obtaining information for the blind is the so-called "talking book", which is a magnetic tape on which the texts of books, magazines, newspapers, etc. are recorded [2].

Достоинствами такого средства является то, что при восприятии речевой информации человек меньше устает, быстрее реагирует, при этом скорость обмена информацией существенно выше, чем при тактильном способе. При несомненных достоинствах этого устройства обмена информацией его отличает низкая оперативность, из-за чего слабо удовлетворяются индивидуальные запросы незрячего пользователя, особенно в области, связанной с профессиональной деятельностью, поскольку имеется только массовая, широко используемая продукция и отсутствует специальная информация, при этом не отслеживается новейшая и последняя информация. The advantages of this tool is that when you perceive speech information, a person gets tired less, responds faster, and the speed of information exchange is much higher than with the tactile method. With the undoubted advantages of this information exchange device, it is distinguished by low efficiency, which is why the individual requests of a blind user are poorly satisfied, especially in the field of professional activity, since there are only mass, widely used products and there is no special information, while the latest and latest information.

Наиболее близким к изобретению является устройство, использующее персональный компьютер с оптико-механическим блоком чтения плоско-печатного текста и программируемым синтезатором речи [3]. Closest to the invention is a device using a personal computer with an optical-mechanical block for reading flat-printed text and a programmable speech synthesizer [3].

Можно отметить довольно высокую натуральность и разборчивость синтезированной речи на уровне отдельных слов и значительное ухудшение этих показателей при синтезе слитной речи, когда возникают заметные паразитные звуковые эффекты. Кроме того, синтез осуществляется по строкам текста, а при таком подходе невозможно адекватно сформировать мелодический контур, поскольку он определяет интонацию фраз и синтагм, а строка прозаического текста содержит фрагменты одной или нескольких синтагм, т.е. синтезированная речь звучит "механически". One can note a rather high naturalness and intelligibility of synthesized speech at the level of individual words and a significant deterioration of these indicators in the synthesis of continuous speech, when there are noticeable spurious sound effects. In addition, synthesis is carried out along lines of text, and with this approach it is impossible to adequately form a melodic contour, since it determines the intonation of phrases and syntagmas, and a line of prosaic text contains fragments of one or more syntagmas, i.e. synthesized speech sounds “mechanically”.

Независимо от качества иноязычные синтезаторы речи для чтения русскоязычных текстов непригодны. При синтезе речи на русском языке возникает много проблем, которые связаны со сложностью грамматики и фонетики русского языка, происходящего от кириллицы, и являются самыми сложными в мировой практике, так как требуют учета очень большого количества факторов, как ни в одном другом языке. Имевшие место до настоящего времени попытки создания таких устройств не решили данную задачу, так как эти устройства не удовлетворяли требованиям по качеству воспринимаемого сигнала, и все созданные варианты были отвергнуты потенциальными пользователями-слепыми. Regardless of the quality, foreign-language speech synthesizers are unsuitable for reading Russian-language texts. When synthesizing speech in Russian, many problems arise that are associated with the complexity of the grammar and phonetics of the Russian language, derived from the Cyrillic alphabet, and are the most difficult in world practice, since they require taking into account a very large number of factors, like in no other language. To date, attempts to create such devices have not solved this problem, since these devices did not meet the requirements for the quality of the perceived signal, and all created options were rejected by potential blind users.

Технической задачей изобретения является разработка компьютерного устройства для чтения плоскопечатного текста: осуществляющего считывание и звуковое воспроизведение печатного текста в реальном масштабе времени с высоким качеством синтезированной русской "славянской" речи за счет обеспечения ее натуральности и разборчивости фонемной, слоговой и словесной. An object of the invention is the development of a computer device for reading flat-printed text: reading and sound reproduction of printed text in real time with high quality synthesized Russian "Slavic" speech by ensuring its naturalness and intelligibility of the phoneme, syllable and verbal.

Поставленная задача решается в устройстве для чтения плоскопечатного текста, содержащем последовательно соединенные блок оптического ввода плоскопечатного текста и блок оптического распознавания текста, блок синтеза речи по орфографическому тексту, блок формирования аудиосигнала и оконечный блок, в котором согласно изобретению блок оптического ввода плоскопечатного текста выполнен в виде сканера, блок формирования аудиосигнала выполнен в виде звуковой платы, блок синтеза речи по орфографическому тексту выполнен в виде блока синтеза русской речи по орфографическому тексту, а также дополнительно введены блок унификации текстового файла, блок текстовой базы данных, тактильный дисплей, блок сопряжения тактильного дисплея с персональным компьютером и блок интерфейса, при этом выход блока оптического распознавания текста через последовательно соединенные блок унификации текстового файла и блок текстовой базы данных соединен с информационным входом блока синтеза речи по орфографическому тексту, а через блок сопряжения - с входом тактильного дисплея, выход блока синтеза русской речи по орфографическому тексту через звуковую плату соединен с оконечным аудиоблоком, управляющие входы блоков сопряжения тактильного дисплея и сканера, блок оптического распознавания текста, блок унификации текстового файла, блока синтеза русской речи по орфографическому тексту и блока текстовой базы данных соединены с соответствующими выходами блока интерфейса. The problem is solved in a device for reading flat-typed text, containing a series-connected optical input unit for flat-printed text and an optical text recognition unit, a speech synthesis unit for spelling text, an audio signal generating unit and a terminal unit, in which, according to the invention, an optical input unit for flat-printed text is made in the form scanner, the audio signal generating unit is made in the form of a sound card, the speech synthesis unit for spelling text is made in the form of a synthesizer in Russian speech in spelling text, as well as additionally introduced a text file unification unit, a text database unit, a tactile display, a tactile display interface to a personal computer and an interface unit, the output of the optical text recognition unit through a series-connected text file unification unit and the text database block is connected to the information input of the speech synthesis block according to the spelling text, and through the pairing block, to the input of the tactile display, the output of the sync block A spelling of Russian speech in spelling text is connected through a sound card to a terminal audio block, control inputs of the interface units of a tactile display and scanner, an optical text recognition unit, a text file unification unit, a block for synthesizing Russian speech from spelling text, and a text database block are connected to the corresponding outputs of the block interface.

При этом блок унификации текстового файла может быть выполнен в виде последовательно соединенных блока распознавания многоколоночного текста, блока переформатирования текстового файла в одноколоночный, блока распознавания левых и правых границ текста, блока распознавания красных строк, блока выделения абзацев, блока исключения символов метаязыка, не входящих в допустимый алфавит, блока ликвидации переносов слов и блока переформатирования текстового файла. At the same time, the unit of unification of the text file can be made in the form of series-connected recognition blocks for multi-column text, blocks for reformatting a text file into one columns, a block for recognizing left and right borders of a text, a block for recognizing red lines, a block for selecting paragraphs, a block for excluding metalanguage characters that are not included in valid alphabet, word wrap block, and text file reformat block.

Блок синтеза русской речи по орфографическому тексту может быть выполнен в виде блока компиляционного синтеза речи и содержащего последовательно соединенные блок выбора текущего абзаца, блок чтения текущего абзаца, блок предварительного синтаксического анализа абзаца, блок выделения слов в абзаце, селектор подслов на подмножествах алфавита метаязыка, блок распознавания слов на русском алфавите, первый блок ИЛИ, блок контекстной расшифровки сокращений слов, блок согласования, блок выделения фраз и синтагм, блок определения коммуникативного типа фраз и синтагм, блок определения логического ударения, блок фонетического транскрибирования текста, временной процессор, мелодический процессор, блок компиляции, блок формирования звукового файла и блок вывода звукового файла. The block for synthesizing Russian speech from a spelling text can be made in the form of a block for compiling speech synthesis and containing a series-connected block for selecting the current paragraph, a block for reading the current paragraph, a block for preliminary parsing of the paragraph, a block for selecting words in a paragraph, a subword selector on subsets of the metalanguage alphabet, a block recognition of words in the Russian alphabet, the first block OR, block contextual decryption of abbreviations of words, block matching, block selection of phrases and syntagm, block definitions of communication vnogo type phrases and syntagmas determining unit logical stress, phonetic transcription unit of text, the time processor melodic processor compilation unit, forming unit, and an audio file output unit of the sound file.

Блок предварительного синтаксического анализа абзаца может содержать последовательно соединенные селектор знаков пунктуации, коммутатор, блок вербализации знаков пунктуации и второй блок ИЛИ, при этом второй выход коммутатора через последовательно соединенные блок контекстного анализа пунктуационных знаков, блок устранения ненаходящих отражения в устной речи пунктуационных знаков, блок устранения графических пунктуационных фикций и блок вербализации знаков точки, запятой и тире в записи чисел подключен к второму входу второго блока ИЛИ, а управляющие вход коммутатора является управляющим входом блока предварительного синтаксического анализа. The block of preliminary parsing of the paragraph may contain sequentially connected punctuation mark selector, a switch, a punctuation mark verbalization block and a second OR block, while the second output of the switch through sequentially connected punctuation mark context analysis block, a punctuation mark elimination block for spoken words, a elimination block graphic punctuation fictions and the block of verbalization of the signs of a point, comma and dash in the record of numbers is connected to the second input of the second block OR, and the control input of the switch is the control input of the preliminary parsing unit.

Блок распознавания слов на русском алфавите содержит последовательно соединенные блок преобразования символьных кодов к одному регистру, селектор слов, включающих пунктуационные знаки, первый селектор слов-сокращений и третий блок ИЛИ, второй выход первого селектора слов-сокращений через последовательно соединенные четвертый блок ИЛИ, блок морфологического анализа, блок восстановления графемы "йо", селектор аббревиатур и блок расшифровки аббревиатур подключен к второму входу третьего блока ИЛИ, второй выход селектора аббревиатур через последовательно соединенные блок определения части речи и блок расстановки ударений подключен к третьему входу третьего блока ИЛИ, второй выход селектора слов, включающих пунктуационные знаки, через второй селектор слов-сокращений подключен к четвертому входу третьего блока ИЛИ, второй выход второго селектора слов-сокращений через блок исключения дефиса подключен к второму входу четвертого блока ИЛИ, третий выход селектора слов, включающих пунктуационные знаки, через блок исключения апострофа подключен к третьему входу четвертого блока ИЛИ, четвертый вход которого соединен с четвертым выходом селектора слов, содержащих пунктуационные знаки, выход третьего блока ИЛИ является выходом блока распознавания слов на русском алфавите. The block for recognizing words in the Russian alphabet contains a series-connected block for converting symbol codes to one register, a selector for words including punctuation characters, a first word-abbreviation selector and a third OR block, a second output of the first word-abbreviation selector through a fourth OR block connected in series, a morphological block analysis, grapheme recovery unit "yo", abbreviation selector and abbreviation decryption unit connected to the second input of the third OR block, the second output of the abbreviation selector Without a serially connected unit for determining a part of speech and an accentuation unit is connected to the third input of the third OR block, the second output of the word selector including punctuation marks, through the second selector of abbreviations is connected to the fourth input of the third OR unit, the second output of the second selector of abbreviations the hyphen exclusion block is connected to the second input of the fourth OR block, the third output of the word selector including punctuation characters, through the apostrophe exclusion block is connected to the third input of the fourth OR unit, a fourth input coupled to a fourth output selector words containing punctuation marks, the third block is the output of OR output word recognition unit to the Russian alphabet.

Блок морфологического анализа содержит блоки памяти для префиксов, основ и флексий, реализованные в виде соответствующей базы данных, при этом блок морфологического анализа выполнен реализующим алгоритм решения соответствующего уравнения. The morphological analysis block contains memory blocks for prefixes, foundations, and inflections, implemented in the form of a corresponding database, while the morphological analysis block is implemented that implements an algorithm for solving the corresponding equation.

Блок расстановки ударений содержит последовательно соединенные селектор распознанных слов, блок определения ударного слога и пятый блок ИЛИ. The stress arrangement unit contains a successively connected selector of recognized words, a stressed syllable definition unit, and a fifth OR block.

Блок трансляции слов метаязыка в слова на русском алфавите содержит последовательно соединенные селектор подмножеств алфавита метаязыка, шестой блок ИЛИ, блок вербализации арабской цифровой записи чисел и седьмой блок ИЛИ, второй выход селектора подмножеств алфавита метаязыка через последовательно соединенные селектор латинских цифр и блок преобразования латинской записи чисел в арабскую соединен с вторым входом шестого блока ИЛИ, второй выход блока преобразования латинской записи чисел в арабскую через последовательно соединенные восьмой блок ИЛИ и блок русификации слов латинского алфавита соединен с вторым входом седьмого блока ИЛИ, второй выход селектора латинских цифр соединен с вторым входом восьмого блока ИЛИ, третий вход которого соединен с третьим выходом селектора подмножеств алфавита метаязыка, четвертый выход которого через блок вербализации знаков алфавита метаязыка соединен с третьим входом седьмого блока ИЛИ, выход которого является выходом блока трансляции слов метаязыка в слова русского алфавита. The translation unit of metalanguage words into words in the Russian alphabet contains a sequentially connected selector of subsets of the alphabet of the metalanguage, the sixth block OR, the verbalization block of the Arabic digital notation of numbers and the seventh block OR, the second output of the selector of the subsets of the alphabet of the metalanguage through the sequentially connected selector of Latin digits and the conversion unit of Latin numbers in Arabic is connected to the second input of the sixth block OR, the second output of the block for converting Latin numbers into Arabic through series-connected the eighth OR block and the Russification block of Latin alphabet words is connected to the second input of the seventh OR block, the second output of the Latin digit selector is connected to the second input of the eighth OR block, the third input of which is connected to the third output of the metalanguage subset selector, the fourth output of which is through the verbalization block of alphabet characters metalanguage is connected to the third input of the seventh OR block, the output of which is the output of the translation unit of metalanguage words into words of the Russian alphabet.

Блок выделения фаз и синтагм выполнен реализующим алгоритм выделения фраз путем разбиения абзаца на лексемы, отделенные символами {.?} и алгоритм выделения синтагм во фразах путем разбиения фразы на лексемы, отделенные символами {,:;-}. The phase and syntagma selection block is implemented that implements the phrase extraction algorithm by breaking the paragraph into lexemes separated by {.?} And the syntax highlighting algorithm in phrases by breaking the phrase into lexemes separated by {,:; -}.

Блок определения коммуникативного типа фраз и синтагм содержит последовательно соединенные селектор вопросительных фраз, блок определения синтагмы, содержащей вопрос, девятый блок ИЛИ и блок определения коммуникативного типа синтагм, второй выход селектора вопросительных фраз соединен со вторым входом девятого блока ИЛИ. The communicative type definition block for phrases and syntagms contains a sequentially connected question selector phraser, the syntagma definition block containing a question, the ninth OR block and the communicative type determination syntagm block, the second output of the interrogative phrase selector is connected to the second input of the ninth OR block.

Блок определения коммуникативного типа синтагмы выполнен реализующим алгоритм определения следующих коммуникативных типов: завершенность, соответствующая синтагмам, завершающимся знакам { .:;}, первый и второй типы незавершенности, соответствующие синтагмам, завершающимся соответственно знаками {,-}, общий и частный вопросы для синтагм, завершающихся знаком {?} и соответственно не содержащих или содержащих вопросительное слово, а также синтагмы с акцентом, содержащие знак логического выделения на выделяемом слове. The unit for determining the communicative type of syntagma is implemented that implements an algorithm for determining the following communicative types: completeness corresponding to syntagms ending with signs {.:;}, First and second types of incompleteness corresponding to syntagms ending with respectively signs {, -}, general and particular questions for syntagms, ending with a {?} and correspondingly not containing or containing a question word, as well as accent syntagmas containing a logical highlight sign on the highlighted word.

Блок определения логического ударения содержит последовательно соединенные селектор логически выделенных слов и десятый блок ИЛИ, второй выход селектора логически выделенных слов через последовательно соединенные селектор слов, содержащих частный вопрос, и одиннадцатый блок ИЛИ подключен к второму входу десятого блока ИЛИ, второй выход селектора слов, содержащих частный вопрос, через селектор семантически значимых слов подключен к второму входу одиннадцатого блока ИЛИ, а второй выход селектора семантически значимых слов через блок определения последнего знаменательного слова синтагмы подключен к третьему входу одиннадцатого блока ИЛИ, выход десятого блока ИЛИ является выходом блока определения логического ударения. The logical stress determination unit contains a sequentially connected selector of logically distinguished words and a tenth OR block, a second output of a selector of logically distinguished words through a series-connected word selector containing a particular question, and the eleventh OR block is connected to the second input of the tenth OR block, the second output of a word selector containing a particular question, through the selector of semantically significant words connected to the second input of the eleventh block OR, and the second output of the selector of semantically significant words through the block EFINITIONS last notional word syntagm is connected to the third input of the OR block eleventh, tenth block output is the output of OR logical stress determination unit.

Блок фонетического транскрибирования текста содержит последовательно соединенные блок устранения орфографических фикций, блок преобразования буквенной записи в фонетическую и блок формирования слитной речи. The phonetic transcription block of the text contains a series-connected block for eliminating spelling fictions, a block for converting letter recording into phonetic, and a unit for forming continuous speech.

Блок устранения орфографических фикций содержит последовательно соединенные блок устранения орфографических фикций в окончаниях слов, блок исключения непроизносимых согласных, блок замены сочетаний согласных эквивалентной буквенной записью и блок преобразования записи слов с твердым произношением "е". The spelling fiction elimination unit comprises a spelling fiction elimination unit at the word ends, an unpronounceable consonant elimination unit, a consonant change replacement unit with an equivalent alphabetic entry, and a word recording unit with a hard pronunciation “e”.

Блок преобразования буквенной записи в фонетическую содержит последовательно соединенные селектор служебных слов, блок ликвидации ударений в служебных словах, блок ассимиляции служебных слов, двенадцатый блок ИЛИ, блок транскрибирования контекстов с мягким знаком, блок транскрибирования контекстов с твердым знаком, блок определения мягкости согласных перед маркированными гласными, блок транскрибирования йотированных гласных в начале синтагмы, блок транскрибирования йотированных гласных в позиции после гласной, блок транскрибирования непарных мягких согласных, блок определения звонкости-глухости согласных в сочетаниях согласных, блок оглушения шумных звонких согласных в конце синтагмы, блок ассимиляции твердых согласных перед мягкими, блок транскрибирования двойных согласных, селектор слабоударных слов, блок определения степени редукции гласных в словах с ударением, блок замены гласных первой степени редукции, тринадцатый блок ИЛИ и блок замены гласных второй степени редукции, второй выход селектора служебных слов через блок замены ударений в слабоударных словах соединен со вторым входом двенадцатого блока ИЛИ, а третий выход - с третьим входом двенадцатого блока ИЛИ, второй выход селектора слабоударных слов через блок определения степени редукции в слабоударных словах соединен со вторым входом тринадцатого блока ИЛИ. The block for converting an alphabetic entry into a phonetic one contains a serially connected selector of service words, a unit for eliminating stresses in service words, a unit for assimilating service words, a twelfth OR block, a block for transcribing contexts with a soft sign, a block for transcribing contexts with a hard sign, a block for determining the softness of consonants in front of marked vowels , block of transcription of iotated vowels at the beginning of the syntagma, block of transcription of iotated vowels in the position after the vowel, block of transcription unpaired soft consonants, a unit for determining voiced-deafness of consonants in combinations of consonants, a unit for stunning noisy voiced consonants at the end of a syntagm, a unit for assimilating hard consonants to soft ones, a unit for transcribing double consonants, a selector for weakly stressed words, a unit for determining the degree of reduction of vowels in accented words, unit for replacing vowels of the first degree of reduction, the thirteenth block OR and unit of replacing vowels of the second degree of reduction, second output of the service word selector through the unit for replacing stresses in weakly stressed words vah is connected to the second input of the twelfth OR block and the third output - to the third input unit of the twelfth or the second output selector slaboudarnyh words through the block determining the degree of reduction in slaboudarnyh words is coupled to a second input of the thirteenth OR block.

Блок формирования слитной речи выполнен реализующим соответствующий алгоритм. The unit for the formation of continuous speech is made implementing the corresponding algorithm.

Блок определения степени редукции гласных выполнен реализующим алгоритм, в котором первая степень редукции, или вторая степень выделенности соответствует гласным в позициях первого предударного слога, в безударных позициях в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога и позиции после гласной, а вторая степень редукции, или первая степень выделенности - гласным во всех остальных безударных позициях, третья степень выделенности соответствует гласным в ударных позициях кроме последнего ударного слога синтагмы, гласному которого соответствует четвертая степень выделенности. The unit for determining the degree of reduction of vowels is implemented by implementing an algorithm in which the first degree of reduction or the second degree of emphasis corresponds to vowels in the positions of the first pre-stressed syllable, in unstressed positions at the end of the syntagma, in the open end of the word, if the next word begins with the stressed syllable and the position after the vowel , and the second degree of reduction, or the first degree of highlighting - to the vowel in all other unstressed positions, the third degree of highlighting corresponds to the vowels in the stressed positions except the last stressed a syllable of a syntagma, the vowels of which corresponds to the fourth power of selection.

Блок замены гласных первой степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных первой степени редукции путем соответствующих подстановок. The unit for replacing vowels of the first degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the first degree of reduction by appropriate substitutions.

Блок определения степени редукции гласных в слабоударных словах выполнен реализующим алгоритм редуцирования псевдоударного гласного в слабоударных словах до первой степени редукции. The unit for determining the degree of reduction of vowels in weakly stressed words is implemented that implements the algorithm for reducing a pseudo-stressed vowel in weakly stressed words to the first degree of reduction.

Блок замены гласных второй степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных второй степени редукции путем соответствующих подстановок. The unit for replacing vowels of the second degree of reduction is implemented that implements an algorithm for contextually replacing reduced unstressed vowels of the second degree of reduction by appropriate substitutions.

Временной процессор выполнен реализующим алгоритм, ставящий каждому символьному элементу фонетической записи в соответствие временной интервал, определяющий длительность соответствующего звука элемента компиляции, при этом гласные разбиты на три класса, отражающие различия в их фонетическом качестве. The time processor is implemented implementing an algorithm that sets each symbolic element of the phonetic record in accordance with a time interval that determines the duration of the corresponding sound of the compilation element, while the vowels are divided into three classes, reflecting differences in their phonetic quality.

Мелодический процессор содержит последовательно соединенные блок сегментирования синтагмы на слоговые фрагменты, блок определения класса слогового фрагмента и блок определения параметров закона изменения частоты основного тона для сегментов слогов. The melodic processor contains sequentially connected syntagma segmentation unit for syllabic fragments, a class unit for determining a syllable fragment and a unit for determining the parameters of the law of changing the frequency of the fundamental tone for syllable segments.

Блок сегментирования синтагмы на слоговые фрагменты выполнен реализующим итерационный алгоритм решения соответствующих уравнений. The syntagma segmentation block for syllabic fragments is implemented implementing an iterative algorithm for solving the corresponding equations.

Блок определения класса слогового фрагмента выполнен реализующим соответствующий алгоритм, в котором слоговые фрагменты разделены на классы в зависимости от коммуникативного типа синтагмы, степени выделенности гласного слога и от совпадения слога с мелодическим центром синтагмы, совпадающим с логическим ударением синтагмы, при этом для завершенности и двух типов незавершенности выделены девять классов слогов: безударные слоги, ударные слоги со степенью выделенности гласного, равной трем, не совпадающие с мелодическим центром, последний ударный слог, не совпадающий с мелодическим центром, мелодический центр для синтагм с типом завершенности соответственно со степенью выделенности гласного n=4 и n=3, мелодический центр соответственно для синтагм с первым и вторым типами незавершенности и степенью выделенности гласного соответственно n= 3 и n= 4, для синтагм с коммуникативным типом "общий вопрос" выделены четыре класса слогов, соответственно безударные и ударные слоги - не мелодические центры с n=3, последний ударный слог - не мелодический центр, мелодический центр со степенями выделенности гласного соответственно n= 3 и n=4, а для синтагм с коммуникативным типом "частный вопрос" выделены два класса слогов - совпадающие и не совпадающие с мелодическим центром. The unit for determining the class of a syllable fragment is implemented that implements the corresponding algorithm, in which syllable fragments are divided into classes depending on the communicative type of syntagma, the degree of emphasis of the vowel syllable, and on the coincidence of the syllable with the melodic center of the syntagma, which coincides with the logical stress of the syntagma, while for completeness and two types nine classes of syllables are distinguished: incomplete syllables, stressed syllables with a vowel degree of three equal to those that do not coincide with the melodic center, after a stressed syllable that does not coincide with the melodic center, the melodic center for syntagmas with the type of completeness respectively with the degree of vowel highlighting n = 4 and n = 3, the melodic center for syntagmas with the first and second types of incompleteness and the degree of vowel highlighting respectively n = 3 and n = 4, for syntagmas with the communicative type “general question” four classes of syllables are distinguished, respectively unstressed and stressed syllables are not melodic centers with n = 3, the last stressed syllable is not a melodic center, melodic center with degree E saliency vowel respectively n = 3 and n = 4, and for syntagmas communicative type "special issue" isolated syllables two classes - coincide and not coincide with the center of the melody.

Блок определения параметров закона изменения частоты основного тона для сегментов слогов выполнен реализующим соответствующий алгоритм. The unit for determining the parameters of the law of changing the frequency of the fundamental tone for segments of syllables is made implementing the corresponding algorithm.

Блок компиляции содержит последовательно соединенные блок выделения контекста, шифратор кода элемента компиляции, блок акустико-сегментной базы синтеза, блок изменения временных и частотных характеристик элементов компиляции и блок композиции. The compilation unit contains a sequentially connected context extraction unit, a compiler element code encoder, an acoustic segment synthesis unit, a time and frequency response unit for compilation elements, and a composition unit.

Блок акустико-сегментной базы синтеза выполнен в виде блока базы данных, акустико-сегментная база синтеза содержит базовые элементы компиляции в виде оцифрованных сегментов естественной речевой волны фонемной размерности - аллофонов, являющихся акустически и перцептивно различимыми контекстными реализациями фонем. The block of the acoustic segment synthesis base is made in the form of a database block, the acoustic segment synthesis base contains the basic compilation elements in the form of digitized segments of the natural phonemic speech wave — allophones, which are acoustically and perceptually distinguishable contextual implementations of phonemes.

Шифратор кода элемента компиляции выполнен реализующим алгоритм формирования кода элемента компиляции. The compiler element code encoder is implemented implementing the compilation element code generation algorithm.

Блок изменения временных и частотных характеристик элемента компиляции выполнен реализующим алгоритм соответствующего функционального преобразования. The unit for changing the time and frequency characteristics of the compilation element is implemented implementing the algorithm of the corresponding functional transformation.

Выполнение компьютерного устройства чтения плоскопечатного текста в виде последовательно соединенных блока оптического ввода плоскопечатного текста, выполненного в виде сканера, и блока оптического распознавания текста, блока компиляционного синтеза речи по орфографическому тексту, блока формирования аудиосигнала в виде звуковой платы, и оконечного сигнала, а также содержащим блок текстовой базы данных, тактильного дисплея, блока сопряжения тактильного дисплея с персональным компьютером и блока интерфейса и соответствующих связей между ними позволяет осуществлять считывание и звуковое воспроизведение с высоким качеством синтезированной речи текста, выполненного любым печатным шрифтом на русском языке. The implementation of a computer device for reading flat-printed text in the form of a series-connected optical input unit for flat-printed text, made in the form of a scanner, and an optical text recognition unit, a compilation unit for synthesizing speech from spelling text, an audio signal generating unit in the form of a sound card, and an end signal, as well as containing a text database unit, a tactile display, a tactile display interface unit with a personal computer, and an interface unit and associated connections between them allows reading and sound reproduction with high quality synthesized speech of the text made in any printed font in Russian.

Предложенное выполнение блока унификации текстового файла, блока синтеза русской речи по орфографическому тексту, блока предварительного синтаксического анализа абзаца, блока распознавания слов на русском алфавите, блока морфологического анализа, блока расстановки ударений, блока трансляции слов метаязыка в слова на русском алфавите, блока выделения фраз и синтагм, блока определения коммуникативного типа фраз и синтагм, блока определения коммуникативного типа синтагм, блока определения логического ударения, блока фонетического транскрибирования текста, блока устранения орфографических фикций, блока преобразования буквенной записи в фонетическую, блока формирования слитной речи, блока определения степени редукции гласных, блока замены гласных первой степени редукции, блока определения степени редукции гласных в слабоударных словах, блока замены гласных второй степени редукции, временного процессора, мелодического процессора, блока сегментирования синтагмы на слоговые фрагменты, блока определения класса слогового фрагмента, блока компиляции блока акустико-сегментной базы синтеза, шифратора кода элемента компиляции, а также блока изменения временных и частотных характеристик элемента компиляции позволяет повысить качество звукового воспроизведения синтезированной русской речи за счет обеспечения соответственно ее фонемной, слоговой и словесной разборчивости, а также ее натуральности. The proposed implementation of a unit for unifying a text file, a unit for synthesizing Russian speech from a spelling text, a unit for preliminary parsing of a paragraph, a unit for recognizing words in the Russian alphabet, a unit for morphological analysis, an unit for placing stress, a unit for translating metalanguage words into words in the Russian alphabet, a unit for selecting phrases and syntagm, block for determining the communicative type of phrases and syntagm, block for determining the communicative type of syntagm, block for determining logical stress, phonetic block text scribing, spelling removal unit, letter to phonetic conversion unit, unit speech formation unit, vowel reduction degree determination unit, vowel replacement degree determination unit, vowel reduction degree determination unit in weakly pronounced words, vowel replacement unit of the second reduction degree, temporary processor, melodic processor, syntagma segmentation block for syllabic fragments, syllabic fragment class definition block, acoustic-comp block compilation unit synthesis-element basis, the encoder element compilation code and the changes block of time and frequency characteristics compilation element allows to increase the quality of sound reproduction Russian synthesized speech by providing respectively its phoneme, syllable verbal and intelligibility and naturalness it.

На фиг. 1-14 приведены структурные электрические схемы следующих устройств и блоков: на фиг. 1 - компьютерного устройства для считывания плоскопечатного текста; на фиг. 2 - блока унификации текстового файла; на фиг. 3 - блока синтеза русской речи по орфографическому тексту; на фиг. 4 - блока предварительного синтаксического анализа абзаца; на фиг. 5 - блока распознавания слов на русском алфавите; на фиг. 6 - блока расстановки ударений; на фиг. 7 - блока трансляции слов метаязыка в слова на русском алфавите; на фиг. 8 - блока определения коммуникативного типа фраз и синтагм; на фиг. 9 - блока определения логического ударения; на фиг. 10 - блока фонетического транскрибирования текста; на фиг. 11 - блока устранения орфографических фикций; на фиг. 12 - блока преобразования буквенной записи в фонетическую; на фиг. 13 - блока мелодического процессора; на фиг. 14 - блока компиляции. In FIG. 1-14 are structural electrical diagrams of the following devices and blocks: in FIG. 1 - a computer device for reading flat-printed text; in FIG. 2 - block unification of a text file; in FIG. 3 - block synthesis of Russian speech according to the spelling text; in FIG. 4 - block preliminary parsing of the paragraph; in FIG. 5 - block recognition of words in the Russian alphabet; in FIG. 6 - stress placement unit; in FIG. 7 - block translation of metalanguage words into words in the Russian alphabet; in FIG. 8 - block definition of a communicative type of phrases and syntagmas; in FIG. 9 - logical stress determination unit; in FIG. 10 - block phonetic transcription of the text; in FIG. 11 - block elimination of spelling fiction; in FIG. 12 - block conversion of letter recording into phonetic; in FIG. 13 - block melodic processor; in FIG. 14 - compilation unit.

Устройство (фиг. 1) содержит блок 1 оптического ввода плоскопечатного текста, блок 2 оптического распознавания текста, блок 3 унификации текстового файла, блок 4 текстовой базы данных и блок 5 синтеза русской речи по орфографическому тексту, оконечный аудиоблок 6, блок 7 сопряжения, тактильный дисплей 8 и блок 9 интерфейса. The device (Fig. 1) contains a block 1 for optical input of flat-printed text, a block 2 for optical text recognition, a block 3 for unifying a text file, a block 4 for a text database, and a block 5 for synthesizing Russian speech from spelling text, a terminal audio block 6, a pairing unit 7, tactile display 8 and unit 9 of the interface.

Блок 3 унификации текстового файла (фиг.2) содержит блок 10 распознавания многоколоночного текста, блок 11 переформатирования текстового файла в одноколоночный, блок 12 распознавания левых и правых границ текста, блок 13 распознавания красных строк, блок 14 выделения абзацев, блок 15 исключения символов метаязыка, не входящих в допустимый алфавит, блок 16 ликвидации переносов слов и блок 17 переформатирования текстового файла. Block 3 unification of the text file (figure 2) contains a block 10 recognition of multicolumn text, block 11 reformatting the text file into a single column, block 12 recognition of left and right borders of the text, block 13 recognition of red lines, block 14 paragraph selection, block 15 exclude characters metalanguage not included in the valid alphabet, block 16 eliminating word wraps and block 17 reformatting the text file.

Блок 5 синтеза русской речи по орфографическому тексту (фиг.3) включает блок 18 выбора текущего абзаца, блок 19 чтения текущего абзаца, блок 20 предварительного синтаксического анализа абзаца, блок 21 выделения слов в абзаце, селектор 22 ъподслов на подмножествах алфавита метаязыка, блок 23 распознавания слов на русском алфавите, блок 24 трансляции слов метаязыка в слова на русском алфавите, первый блок ИЛИ 25, блок 26 контекстной расшифровки сокращений слов, блок 27 согласования, блок 28 выделения фраз и синтагм, блок 29 определения коммуникативного типа фраз и синтагм, блок 30 определения логического ударения в синтагмах, блок 31 фонетического транскрибирования текста, временной процессор 32, мелодический процессор 33, блок 34 компиляции, блок 35 формирования звукового файла и блок 36 вывода звукового файла. Block 5 of the synthesis of Russian speech according to the orthographic text (Fig. 3) includes a block 18 for selecting the current paragraph, a block 19 for reading the current paragraph, a block 20 for preliminary parsing of the paragraph, a block 21 for highlighting words in the paragraph, a selector 22 for subwords on subsets of the metalanguage alphabet, block 23 recognition of words in the Russian alphabet, block 24 translation of words metalanguage into words in the Russian alphabet, first block OR 25, block 26 of the contextual decoding of abbreviations of words, block 27 matching, block 28 of the selection of phrases and syntagm, block 29 of determining communicative ty and phrases and syntagmas determination logic block 30 syntagmas stress in block 31 the phonetic transcription of the text, the time processor 32, processor 33 melodic, the compilation unit 34, the unit 35 forming the sound file and the block 36 output sound file.

Блок 20 предварительного синтаксического анализа абзаца (фиг.4) содержит селектор 37 знаков пунктуации, коммутатор 38, блок 39 вербализации знаков пунктуации, второй блок ИЛИ 40, блок 41 контекстного анализа пунктуационных знаков, блок 42 устранения пунктуационных фикций, селектор 43 пунктуационных знаков в записи чисел и блок 44 вербализации пунктуационных знаков в записи чисел. Block 20 of the preliminary parsing of the paragraph (figure 4) contains a selector 37 punctuation marks, a switch 38, a block 39 of verbalization of punctuation marks, a second block OR 40, a block 41 of the contextual analysis of punctuation marks, a block 42 of eliminating punctuation fictions, a selector 43 of punctuation marks in the record numbers and block 44 verbalization of punctuation marks in the record numbers.

Блок 23 распознавания слов на русском алфавите (фиг.5) включает блок 45 преобразования кодов прописных графем, селектор 46 слов, включающих пунктуационные знаки, первый селектор 47 словосокращений, третий блок ИЛИ 48, четвертый блок ИЛИ 49, блок 50 морфологического анализа, блок 51 восстановления графемы "йо", селектор 52 аббревиатур, блок 53 трансляции аббревиатур, блок 54 определения части речи, блок 55 расстановки ударений, второй селектор 56 слов-сокращений, блок 57 исключения дефиса и блок 58 исключения апострофа. Block 23 recognition of words in the Russian alphabet (figure 5) includes a block 45 for converting capital grapheme codes, a selector 46 of words including punctuation marks, a first word selector 47, a third OR block 48, a fourth OR block 49, a morphological analysis block 50, a block 51 grapheme recovery “yo”, abbreviation selector 52, abbreviation translation unit 53, part of speech determination unit 54, stress accentuation unit 55, second abbreviation selector 56, hyphen hyphenation unit 57 and apostrophe exclusion unit 58.

Блок 55 расстановки ударений (фиг.6) содержит селектор 59 распознанных слов, блок 60 определения ударного слога, пятый блок ИЛИ 61 и блок 62 определения ударного слога по эмпирическим правилам. Block 55 accent (6) contains a selector 59 recognized words, block 60 determine the stressed syllable, the fifth block OR 61 and block 62 determine the stressed syllable according to empirical rules.

Блок 24 трансляции слов метаязыка в слова на русском алфавите (фиг.7) включает селектор 63 подмножеств алфавита метаязыка, шестой блок ИЛИ 64, блок 65 вербализации арабской цифровой записи чисел, седьмой блок ИЛИ 66, селектор 67 латинских цифр, блок 68 преобразования латинской записи чисел в арабскую, восьмой блок ИЛИ 69, блок 70 русификации слов латинского алфавита и блок 71 вербализации знаков алфавита метаязыка. Block 24 of the translation of metalanguage words into words in the Russian alphabet (Fig. 7) includes a selector 63 of the subsets of the metalanguage alphabet, a sixth block OR 64, a block 65 for verbalization of the Arabic numeric recording of numbers, a seventh block OR 66, a selector 67 of Latin digits, a block for converting Latin letters 68 numbers in Arabic, the eighth block OR 69, block 70 of the Russification of words of the Latin alphabet and block 71 of the verbalization of metalic alphabet characters.

Блок 29 определения коммуникативного типа фраз и синтагм (фиг.8) содержит селектор 72 вопросительных фраз, блок 73 определения синтагмы, содержащей вопрос, девятый блок ИЛИ 74 и блок 75 определения коммуникативного типа синтагм. The unit 29 for determining the communicative type of phrases and syntagmas (Fig. 8) contains a selector 72 for interrogative phrases, the unit 73 for determining the syntagma containing the question, the ninth block OR 74 and the unit 75 for determining the communicative type of syntagm.

Блок 30 определения логического ударения (фиг.9) включает селектор 76 логически выделенных слов, десятый блок ИЛИ 77, селектор 78 слов, содержащих частный вопрос, селектор 79 семантически значимых слов, блок 80 определения последнего знаменательного слова синтагмы, одиннадцатый блок ИЛИ 81 и блок 82 логического выделения. The logical stress determination unit 30 (Fig. 9) includes a selector 76 of logically allocated words, a tenth block OR 77, a selector 78 of words containing a particular question, a selector 79 of semantically significant words, a block 80 for determining the last significant word of the syntagma, an eleventh block OR 81, and a block 82 logical allocation.

Блок 31 фонетического транскрибирования текста (фиг.10) включает блок 83 устранения орфографических функций, блок 84 преобразования буквенной записи в фонетическую и блок 85 формирования слитной речи. Block 31 phonetic transcription of text (figure 10) includes a block 83 to eliminate spelling functions, block 84 converting the letter recording into phonetic and block 85 forming a continuous speech.

Блок 83 устранения орфографических фикций (фиг.11) включает блок 86 устранения орфографических фикций в окончаниях слов, блок 87 исключения непроизносимых согласных, блок 88 замены сочетаний согласных эквивалентной буквенной записью и блок 89 преобразования записи слов с твердым произношением "е". Block 83 of the elimination of spelling fiction (11) includes a block 86 of the elimination of spelling fiction at the ends of words, block 87 of the elimination of unpronounceable consonants, block 88 replacement of combinations of consonants with equivalent letter writing and block 89 converting the recording of words with a hard pronunciation of "e".

Блок 84 преобразования буквенной записи в фонетическую (фиг.12) включает селектор 90 служебных слов, блок 91 ликвидации ударений в служебных словах, блок 92 ассимиляции служебных слов, двенадцатый блок ИЛИ 93, блок 94 замены ударений в слабоударных словах, блок 95 транскрибирования контекстов с мягким знаком, блок 96 транскрибирования контекстов с твердым знаком, блок 97 определения мягкости согласных перед маркированными гласными, блок 98 транскрибирования йотированных гласных в начале синтагмы, блок 99 транскрибирования йотированных гласных в позиции после гласной, блок 100 транскрибирования непарных мягких согласных, блок 101 определения звонкости-глухости согласных в сочетаниях согласных, блок 102 оглушения звонских согласных в конце синтагмы, блок 103 ассимиляции твердых согласных перед мягкими, блок 104 транскрибирования двойных согласных, селектор 105 слабоударных слов, блок 106 определения степени редукции гласных в словах с ударением, блок 107 замены гласных первой степени редукции, блок 108 определения степени редукции гласных в слабоударных словах, двенадцатый блок ИЛИ 109 и блок 110 замены гласных второй степени редукции. Block 84 converting the letter recording into phonetic (Fig. 12) includes a selector 90 service words, a unit 91 for eliminating stresses in the service words, a unit 92 for assimilating service words, a twelfth block OR 93, a unit 94 for replacing stresses in low-impact words, a unit 95 for transcribing contexts with soft sign, hard sign context transcribing unit 96, consonant softness determining unit 97 for marked vowels, iotated vowel transcribing unit 98 at the beginning of the syntagma, iotated vowel transcribing unit 99 in pos after the vowel, block 100 transcribing unpaired soft consonants, block 101 for determining the voiced-deafness of consonants in consonant combinations, block 102 for stunning ringer consonants at the end of the syntagma, block 103 for assimilating hard consonants to soft ones, block 104 for transcribing hard consonants, soft selector 105, weak selector 105 block 106 for determining the degree of reduction of vowels in words with accent, block 107 for replacing vowels of the first degree of reduction, block 108 for determining the degree of reduction of vowels in low-impact words, twelfth block OR 109 and block 110 s vowel amenas of the second degree of reduction.

Блок 33 мелодического процессора (фиг.13) содержит блок 111 сегментирования синтагмы на слоговые фрагменты, блок 112 определения класса слогового фрагмента и блок 113 определения параметров закона изменения частоты основного тона для сегментов слогов. Block 33 of the melodic processor (Fig. 13) contains a block 111 for segmenting the syntagma into syllable fragments, a block 112 for determining the class of the syllable fragment and a block 113 for determining the parameters of the law of changing the frequency of the fundamental tone for segments of syllables.

Блок компиляции 34 (фиг. 14) включает блок 114 выделения контекста, шифратор 115 кода элемента компиляции, блок 116 акустико-сегментной базы синтеза, блок 117 изменения временных и частотных характеристик элементов компиляции и блок композиции 118. The compilation unit 34 (FIG. 14) includes a context extraction unit 114, a compilation element code encoder 115, an acoustic segment synthesis unit 116, a time and frequency response unit 117 of the compilation elements, and a composition unit 118.

Устройство работает следующим образом. The device operates as follows.

По стартовому сигналу, поступающему с блока 9 интерфейса на блок 1 оптического ввода плоскопечатного текста,блок 1 начинает ввод графической информации, выполненной любым печатным шрифтом. В качестве блока оптического ввода плоскопечатного текста могут быть использованы серийно выпускаемые ручной или планшетный сканеры, например, сканеры фирмы Hewlett Packard, которые более автоматизированы и потому являются более удобны для незрячего пользователя. Для ввода книжного текста с помощью планшетного сканера необходима предварительная расшивка книги, все остальные операции по вводу осуществляются автоматически. Ручной сканер требует предварительной настройки зрячим оператором (в основном подбор яркости), имеет более узкую полосу захвата и более чувствителен к перекосу. According to the start signal from the interface unit 9 to the optical input unit 1 of the flat-printed text, the unit 1 starts inputting graphical information made in any printed font. As an optical input unit for flat-printed text, commercially available hand-held or flatbed scanners, for example, Hewlett Packard scanners, which are more automated and therefore more convenient for a blind user, can be used. To enter book text using a flatbed scanner, preliminary book flashing is necessary; all other input operations are carried out automatically. A hand-held scanner requires pre-adjustment by the sighted operator (mainly brightness), has a narrower capture band and is more sensitive to skew.

На выходе блока 1 появляется изображение вводимого текста в одном из графических форматов (обычно в TIFF-формате). По управляющему сигналу с блока 9 блок 2 оптического распознавания текста начинает распознавание графических символов алфавита для преобразования изображения текста в текстовый файл. Графический файл, как известно, представляет собой хранимую в оперативной или долговременной памяти матрицу изображения по элементам разрешения - пикселам. Для переносимости изображений, а также для их сжатия с целью экономии памяти используются различные стандартные форматы графических файлов - PCX, GIF,TIFF и др. Текстовый файл, как известно, представляет собой матрицу знакомест, где каждому знакоместу соответствует код некоего символа алфавита (пробел, буква, знак пунктуации, различные специальные символы). At the output of block 1, an image of the input text appears in one of the graphic formats (usually in TIFF format). By the control signal from block 9, the optical text recognition unit 2 starts recognition of graphic symbols of the alphabet for converting the image of the text into a text file. A graphic file, as you know, is a matrix of an image stored in operational or long-term memory by resolution elements - pixels. For portability of images, as well as for their compression in order to save memory, various standard graphic file formats are used - PCX, GIF, TIFF, etc. A text file, as you know, is a familiarity matrix, where each familiarity corresponds to a code of a certain alphabet symbol (space, letter, punctuation mark, various special characters).

Из разработанных систем оптического распознавания наиболее эффективны система CuneiForm фирмы Cognitive Technologies Ltd. и FineReader, разработка "Диалог-МИФИ". Of the developed optical recognition systems, CuneiForm by Cognitive Technologies Ltd. is the most efficient. and FineReader, development of Dialog-MEPhI.

Обе системы характеризуются высокой эффективностью распознавания (не более 1-3 ошибок на 1 страницы для типографского текста, текста, отпечатанного на лазерном или матричном 24-игольчатом принтерах, первого экз. машинописного текста (CuneiForm). Помимо того обеспечивает распознавание смешанных текстов (кириллица и латинский алфавит), а FineReader эффективно распознает и тексты низкого качества (например, ксерокопии, тексты, отпечатанные на 9-игольчатом матричном принтере). Блок 9 интерфейса обеспечивает интегрирование указанных систем оптического распознавания в заявленное устройство с учетом специфики незрячего пользователя. Both systems are characterized by high recognition efficiency (no more than 1-3 errors per 1 page for typographic text, text printed on a laser or matrix 24-needle printers, the first copy of typewritten text (CuneiForm). In addition, it provides recognition of mixed texts (Cyrillic and Latin alphabet), and FineReader also effectively recognizes low-quality texts (for example, photocopies, texts printed on a 9-needle matrix printer). Interface unit 9 provides the integration of these optical systems spoznavaniya claimed in device-specific user blind.

С выхода блока 2 текстовый файл передается в блок 3 унификации текстового файла. Этот блок приводит полученный текстовый файл в соответствие с возможностями синтезатора речи, которые более ограниченны, чем возможности живого субъекта, читающего плоскопечатный текст. From the output of block 2, the text file is transferred to block 3 of unification of the text file. This block brings the resulting text file in accordance with the capabilities of the speech synthesizer, which are more limited than the capabilities of a living subject reading flat-printed text.

Помимо знаков алфавита синтезируемого языка текст может включать различные символы метаязыка и нетекстовые вставки. Каждый текст имеет определенную графическую структуру (заголовки, разбивку на абзацы и т.д.), фрагментирующую текст на законченные в смысловом отношении фрагменты, причем приемы такой фрагментации достаточно разнообразны. Текст может иметь более или менее стандартное типографское оформление: выравнивание строк слева и справа, выделение абзацев красной строкой, отсутствие нетекстовых вставок. Однако при наличии нетекстовых вставок эта структура нарушается: может появиться несколько левых или правых границ. Машинописный текст, как правило, имеет нечеткое выравнивание по правой границе. Иногда абзацы не выделяются красной строкой и т. д. Графическая структура текста может оказаться нарушенной на выходе блока 2 оптического распознавания, если типографский текст набран немоноширинным шрифтом, может нарушиться выравнивание по правой границе текста (строки окажутся неравной длины), может оказаться сдвинутым начало строк, текст вообще может оказаться состоящим из нескольких колонок, из-за ошибок распознавания в текстовом файле могут проявиться символы, не входящие в допустимый алфавит. In addition to the characters of the alphabet of the synthesized language, the text may include various metalanguage characters and non-textual inserts. Each text has a certain graphic structure (headings, paragraphing, etc.), fragmenting the text into fragments that are finished in a meaningful sense, and the techniques for such fragmentation are quite diverse. The text can have more or less standard typographic design: alignment of lines to the left and right, highlighting of paragraphs with a red line, lack of non-text inserts. However, if there are non-textual inserts, this structure is violated: several left or right borders may appear. Typewritten text typically has fuzzy alignment on the right border. Sometimes paragraphs are not highlighted with a red line, etc. The graphic structure of the text may turn out to be violated at the output of optical recognition unit 2, if the typographic text is typed in a non-width font, alignment along the right border of the text may be violated (lines will turn out to be of unequal length), the beginning of lines may be shifted , the text in general may turn out to consist of several columns, due to recognition errors in the text file, characters that are not included in the valid alphabet may appear.

Блок оптического распознавания позволяет выделять колонки текста, однако делается это вручную в интерактивном режиме, что неприемлемо для потенциального пользователя. В блоке 10 осуществляется автоматическая проверка наличия более одной колонки в тексте. Признаком многоколоночного текста является наличие пробелов в одних и тех же позициях строк. Будем рассматривать каждую строку как вектор, и преобразуем строки-вектора по следующему правилу: i-тая составляющая, соответствующая i-той позиции в строке, равна 0, если в этой позиции пробел, и 1, если в этой позиции символ, отличный от пробела. Векторное суммирование полученных векторов строк и сравнение составляющих результирующего вектора с порогом позволяет выделить в строке связные области, соответствующие колонкам текста, многоколоночный текстовый файл в блоке 11 переформатируется в одноколоночный. The optical recognition unit allows you to select columns of text, however, this is done manually in interactive mode, which is unacceptable to a potential user. Block 10 automatically checks for more than one column in the text. A sign of multi-column text is the presence of spaces in the same line positions. We will consider each line as a vector, and transform the vector lines according to the following rule: the i-th component corresponding to the i-th position in the line is 0 if there is a space in this position, and 1 if a character other than a space in this position . The vector summation of the obtained row vectors and the comparison of the components of the resulting vector with the threshold allows us to select the connected areas corresponding to the text columns in the line; the multi-column text file in block 11 is reformatted to single-column.

Для того, чтобы выделить заголовки и абзацы текста, необходимо сначала проверить выровненность текста по левым и правым границам. Распознавание левых и правых границ текста осуществляется в блоке 12. Обозначим li - позицию в i-той строке, соответствующую первому отличному от пробела символу, и ri - позицию, соответствующую последнему, отличному от пробела и символа переноса строки символу. Пусть далее L - множество значений li, а R - множество значений ri для данного текста.In order to highlight the headings and paragraphs of the text, you must first check the alignment of the text on the left and right borders. Recognition of the left and right borders of the text is carried out in block 12. Let l i be the position in the i-th line corresponding to the first character other than the space character, and r i the position corresponding to the last character other than the space and the line feed character. Further, let L be the set of values of l i and R the set of values of r i for a given text.

На множествах L и R определяются соответствующие распределения частотностей значений левых и правых границ строк в тексте, а также распределение правых границ строк, завершающихся знаком переноса, и правых границ строк, не завершающихся знаками конца фразы. On the sets L and R, the corresponding frequency distributions of the values of the left and right boundaries of the lines in the text are determined, as well as the distribution of the right borders of the lines ending with a hyphen and the right boundaries of the lines not ending with the characters of the end of the phrase.

Правые границы текста распознаются по их коррелированности с границами строк, завершающихся переносами, или, если переносы слов в тексте отсутствуют, с границами "незавершенных" строк (строк, не завершающихся пунктуационными знаками, ставящимися в конце фраз). Для нечетких правых границ определяются их статистические характеристики (математическое ожидание и дисперсия). Левые границы определяются на подмножестве строк, следующих за вышеперечисленными. The right borders of the text are recognized by their correlation with the boundaries of lines ending with hyphens, or, if there are no word hyphens in the text, with the boundaries of "incomplete" lines (lines that do not end with punctuation marks at the end of phrases). For fuzzy right borders, their statistical characteristics (mathematical expectation and variance) are determined. Left borders are defined on a subset of the lines following the above.

Отступы красных строк определяются на подмножестве строк, начало которых не совпадает с выделенными левыми границами, по их коррелированности с началом фраз и с "неполнотой" предыдущей строки (т.е. в конце строки стоит пунктуационный знак конца фразы, а конец строки не доходит до правой границы текста или отклонение от нечеткой границы превышает толерантный интервал). По найденным значениям отступов красных строк и левых границ определяются начальные позиции для красных строк. Indentation of red lines is determined on a subset of lines whose beginning does not coincide with the selected left borders, by their correlation with the beginning of phrases and with the “incompleteness” of the previous line (that is, the punctuation mark of the end of the phrase is at the end of the line, and the end of the line does not reach the right border of the text or deviation from the fuzzy border exceeds the tolerance interval). From the found values of the indentation of the red lines and the left borders, the starting positions for the red lines are determined.

Красные строки (если они есть в тексте) распознаются в блоке 13 по соответствующей позиции начала строки и при условии, что начало строки соответствует началу фразы (для исключения случайных совпадений). Red lines (if they are in the text) are recognized in block 13 by the corresponding position of the beginning of the line and provided that the beginning of the line corresponds to the beginning of the phrase (to exclude accidental matches).

В блоке 14 выделяются абзацы. Обычно в тексте начало абзаца выделяется красной строкой, однако не всегда. Если в данном тексте красные строки не обнаружены, то конец абзаца определяется по признаку "неполноты" строки. In block 14, paragraphs are highlighted. Typically, in the text, the beginning of a paragraph is highlighted in red, but not always. If no red lines are found in this text, then the end of the paragraph is determined by the "incompleteness" of the line.

В блоке 15 проверяется наличие в тексте недопустимых символов, обнаруженные недопустимые символы заменяются пробелами. In block 15, the presence of invalid characters in the text is checked, detected invalid characters are replaced by spaces.

В блоке 16 ликвидируются знаки переноса в словах (для уменьшения многозначности символа "-"), а блок 17 переформатирует текстовый файл в соответствии с принятым стандартом. Этому стандарту соответствует текст в одну колонку с выделением абзацев красными строками и с нечеткой правой границей. Если очередное слов не умещается на текущей строке, оно переносится на следующую, при этом правая граница не выравнивается за счет пробелов. In block 16, hyphenation characters in words are eliminated (to reduce the ambiguity of the "-" character), and block 17 reformatts the text file in accordance with the accepted standard. The text in one column corresponds to this standard with paragraphs highlighted in red lines and with a fuzzy right border. If the next word does not fit on the current line, it is transferred to the next, while the right border is not aligned due to spaces.

Основываясь на обычном житейском опыте, можно сказать, что человеку несвойственно однократное линейное чтение текстовой информации с начала и до конца. Люди обычно неоднократно возвращаются к ранее прочитанному для более адекватного понимания некоторых положений с учетом далее изложенного или просто для того, чтобы освежить в памяти кое-что из ранее прочитанного. Естественно, что каждый раз вводить и распознавать уже однажды прочитанный текст - пустая трата времени. Текстовый файл занимает объем памяти, на 2-3 порядка меньший, чем графический или звуковой файлы, поэтому есть смысл сохранять в долговременной памяти однажды полученный текстовый файл. 250 Мгб памяти на жестком диске позволяют хранить до 100 тыс. страниц текста (или примерно 100 страниц озвученного текста в виде звукового файла). Для того, чтобы можно было достаточно быстро отыскать нужный текстовый файл хранимые текстовые файлы необходимо организовать в некую базу данных (БД), которая становится уже предметом коллективного пользования. Конкретное построение БД будет изложено ниже. Based on the usual everyday experience, it can be said that a person is not characteristic of a single linear reading of textual information from beginning to end. People usually come back to what they have read before for a more adequate understanding of certain provisions, taking into account what is stated below or simply to refresh some of what they have read before. Naturally, entering and recognizing once already read text each time is a waste of time. A text file takes up a memory space that is 2–3 orders of magnitude smaller than a graphic or sound file, so it makes sense to store the text file once received in long-term memory. 250 megabytes of memory on your hard drive allows you to store up to 100 thousand pages of text (or about 100 pages of voiced text in the form of an audio file). In order to be able to quickly find the desired text file, stored text files must be organized into a certain database (DB), which is already becoming a subject of collective use. The specific construction of the database will be described below.

В зависимости от управляющего сигнала на входе блока 4 на выход последнего поступает текущий текстовый файл, или файл, выбранный с помощью интерфейса БД. Этот файл с выхода блока 4 поступает на вход блока синтеза 5 и через блок 7 сопряжения - на вход тактильного дисплея 8. Блок синтеза 5 формирует на основе текстового файла звуковой файл в одном из звуковых форматов, последний преобразуется системой вывода звука типа Sound Blaster в аналоговый сигнал звуковой частоты. С линейного выхода этот сигнал поступает на оконечный аудиоблок 6, где преобразуется в требуемую для пользователя форму. В качестве оконечного аудиоблока могут использоваться пассивные или активные (с регулировкой громкости и тембра) акустические системы, преобразующие аналоговый сигнал в акустическую волну (речевой поток), и/или аналоговый магнитофон. В последнем случае параллельно звуковому выводу осуществляется магнитная запись речевого сигнала. Эта магнитная запись в дальнейшем может использоваться как обычная "говорящая книга". Синтезированная "говорящая книга" является побочным продуктом и естественно уступает по качеству "настоящей говорящей книге", являющейся чем-то вроде передачи "театр у микрофона". Однако она может быть оперативно получена с меньшими затратами (не требуется наличие квалифицированного диктора и студии звукозаписи, стоимость аренды которой достаточно высока). Кроме того, синтезированная и обычная "говорящая книга" имеют разное целевое назначение. Обычная "говорящая книга" удовлетворяет в основном эстетические запросы пользователя, а синтезированная - только информационные. Depending on the control signal at the input of block 4, the output of the latter receives the current text file, or a file selected using the database interface. This file from the output of block 4 goes to the input of synthesis block 5 and through the pairing block 7 to the input of the tactile display 8. Synthesis block 5 generates a sound file in one of the audio formats based on the text file, the latter is converted by the sound output system of the Sound Blaster type into analog sound frequency signal. From the linear output, this signal is fed to the terminal audio unit 6, where it is converted into the form required by the user. Passive or active (with volume and timbre control) acoustic systems that convert an analog signal into an acoustic wave (speech stream) and / or an analog tape recorder can be used as a terminal audio block. In the latter case, a magnetic recording of the speech signal is carried out in parallel with the audio output. This magnetic record can later be used as an ordinary “talking book”. The synthesized “talking book” is a by-product and naturally inferior in quality to the “real talking book”, which is a bit of a “theater at the microphone” show. However, it can be quickly obtained at a lower cost (it does not require a qualified announcer and recording studio, the rental price of which is quite high). In addition, the synthesized and the usual "talking book" have different purposes. The usual “talking book” mainly satisfies the aesthetic needs of the user, and the synthesized one only informative.

Тактильный дисплей дублирует речевой вывод, позволяя прочесть непонятные или просто плохо воспринимаемые на слух слова, кроме того, некоторые специфические графические средства текста, например таблицы, вообще плохо поддаются адекватной линейной вербализации. The tactile display duplicates the speech output, allowing you to read words that are incomprehensible or simply poorly perceived by hearing, in addition, some specific graphic means of the text, such as tables, generally do not lend themselves well to adequate linear verbalization.

В блоке синтеза 5 реализован компиляционный способ синтеза речи по орфографическому тексту, при этом в качестве базовых элементов компиляции выбраны сегменты фонемной размерности - аллофоны. Synthesis block 5 implements a compilation method for synthesizing speech using spelling text, while segments of the phoneme dimension — allophones — are selected as the basic compilation elements.

Поскольку при алфавитном письме базовыми элементами письменной речи являются буквы, которым в устной речи соответствуют элементы фонемной размерности, базовые элементы компиляции естественно выбрать той же размерности. При этом синтезатор речи, рассматриваемый как своего рода интеллектуальный решатель определенной задачи, получается прозрачным, или артикулирующим. Последнее означает, что такой решатель позволяет не только получить конечное решение, но и проследить весь путь его получения в привычной для данной предметной области форме. В данном случае это значит, что трансляция письменного речевого фрагмента на алфавит базовых элементов компиляции приводит к привычной для данной предметной области задаче фонетического транскрибирования текста, а фонетические значения, структурированные и формализованные с использованием технологий искусственного интеллекта, могут быть положены в основу базы знаний синтезатора. Since in alphabetical writing the basic elements of written speech are letters, which in spoken language correspond to elements of the phoneme dimension, the basic compilation elements naturally choose the same dimension. In this case, the speech synthesizer, regarded as a kind of intellectual solver of a certain task, turns out to be transparent, or articulating. The latter means that such a solver allows not only to obtain the final solution, but also to trace the entire path of its receipt in the form familiar to the given subject area. In this case, this means that translating a written speech fragment into the alphabet of basic compilation elements leads to the problem of phonetic transcription of text familiar to a given subject area, and phonetic values structured and formalized using artificial intelligence technologies can form the basis of the synthesizer's knowledge base.

В русском языке можно выделить 10 гласных и 37 согласных фонем. Сами по себе фонемы не исчерпывают всего многообразия звуков русской речи. In Russian, 10 vowels and 37 consonant phonemes can be distinguished. By themselves, phonemes do not exhaust the whole variety of sounds of Russian speech.

Артикуляция каждого звука, как гласного, так и согласного, состоит из трех фаз - начальной, когда активный орган речи их исходного положения движется по направлению к соответствующему пассивному (экскурсия), срединной, или выдержки, когда активный орган речи находится по отношению к пассивному органу в положении, необходимом для производства данного звука, и конечной, когда активный орган речи возвращается в исходное положение (рекурсия). В речевом потоке артикуляции разных звуков как бы накладываются друг на друга: рекурсия данного звука по времени совпадает с экскурсией следующего, а экскурсия - с рекурсией предыдущего. The articulation of each sound, both vowel and consonant, consists of three phases - the initial, when the active organ of speech of their initial position moves towards the corresponding passive (excursion), middle, or shutter speed, when the active organ of speech is in relation to the passive organ in the position necessary for the production of a given sound, and final, when the active organ of speech returns to its original position (recursion). In the speech stream, the articulations of different sounds seem to overlap: the recursion of this sound in time coincides with the excursion of the next, and the excursion with the recursion of the previous one.

Поэтому в слитном речевом потоке акустическая реализация конкретной фонемы будет зависеть от контекстного окружения. Эти контекстные реализации фонем - аллофоны - и выбраны в качестве базовых элементов компиляции. Общий объем акустико-сегментной базы синтеза при таком подходе составляет порядка 100 тыс. , что требует огромных трудозатрат на составление такого словаря. Необходимый набор можно сократить путем обобщения тождественных контекстных влияний. При удачном обобщении практически решается и проблема адекватной стыковки базовых элементов компиляции при синтезе речи. Задача поиска возможных обобщений и тем самым оптимального набора аллофонов может быть решена лишь с учетом знаний акустических рефлексов коартикуляционных процессов. Такой подход можно считать основанным на фонетических знаниях в том понимании, которое принято в исследованиях по искусственному интеллекту. Therefore, in a continuous speech stream, the acoustic realization of a particular phoneme will depend on the contextual environment. These contextual implementations of phonemes - allophones - are chosen as the basic compilation elements. The total volume of the acoustic-segment synthesis base with this approach is about 100 thousand, which requires enormous labor costs for compiling such a dictionary. The necessary set can be reduced by summarizing the identical contextual influences. With a successful generalization, the problem of adequate matching of the basic compilation elements in speech synthesis is practically solved. The search for possible generalizations and thereby the optimal set of allophones can be solved only taking into account the knowledge of acoustic reflexes of co-articulation processes. This approach can be considered based on phonetic knowledge in the sense that is accepted in research on artificial intelligence.

Для формирования аллофонной базы подобран специальный словарь, состоящий из слов, содержащих необходимые аллофоны в требуемых контекстах. Слова этого словаря произносятся диктором, записываются и вводятся в машину в цифровом виде. Затем с помощью пакета программ (например, Tool Kit) осуществляется вычленение акустических сегментов, соответствующих заданным аллофонам, и из этих сегментов формируется акустико-сегментная база синтеза. For the formation of the allophone base, a special dictionary is selected, consisting of words containing the necessary allophone in the required contexts. The words of this dictionary are pronounced by the announcer, recorded and entered into the machine in digital form. Then, using the software package (for example, Tool Kit), the acoustic segments corresponding to the given allophones are extracted, and an acoustic-segment synthesis base is formed from these segments.

Полученная акустико-сегментная база синтеза содержит 687 базовых элементов компиляции, в основном представляющих собой сегменты речевой волны фонемной размерности, хотя в некоторых случаях это соответствие нарушается. Для синтеза смычных и вибрантов используется более одного акустического сегмента, а для синтеза двухсимвольных последовательностей, например, заударных флексий, используется один акустический сегмент. The resulting acoustic-segment synthesis base contains 687 basic compilation elements, mainly representing segments of a phonemic speech wave, although in some cases this correspondence is violated. For the synthesis of closures and vibrants, more than one acoustic segment is used, and for the synthesis of two-character sequences, for example, shock inflections, one acoustic segment is used.

Гласные представлены шестью фонемами в сильной позиции (в ударном слоге): { а^,o^,y^,и^,ы^,э^} и восемью безударными, в том числе:
- первой степени редукции {а,у2,и,ы,о},
- второй степени редукции {ъ,ь,у1}.
Vowels are represented by six phonemes in a strong position (in the stressed syllable): {a ^, o ^, y ^, and ^, s ^, э ^} and eight unstressed, including:
- the first degree of reduction {a, y2, u, s, o},
- second degree of reduction {b, b, y1}.

В качестве левых контекстах выделены следующие:
- переднеязычный твердый {д,т,с,з,ц,дз,ш,ж,а^,а,ъ,э^,э},
- губной твердый {б,п,в,ф,л,у^,у1,у2,о^,о},
- переднеязычный носовой {н},
- губной носовой {м},
- вибрантный твердый {р},
- мягкий неносовой: все согласные, помещенные знаком мягкости ('), кроме {м',н'}, а также {и^,и,ь,ы^,ы},
- мягкий носовой переднеязычный {н'},
- мягкий носовой губной {м'},
- начало синтагмы (начальный).
The following are highlighted as left contexts:
- anterior lingual solid {d, t, s, s, z, q, dz, w, x, a ^, a, b, e ^, e},
- labial hard {b, n, c, f, l, y ^, y1, y2, o ^, o},
- anterior lingual nasal {n},
- labial nasal {m},
- vibrant solid {p},
- soft non-nasal: all consonants placed with a soft sign ('), except {m', n '}, as well as {u ^, u, b, s ^, s},
- soft nasal anterior lingual {n '},
- soft nasal labial {m '},
- beginning of syntagma (initial).

В качестве правых выделены следующие классы контекстов:
- переднеязычный твердый {д,т,с,з,ц,дз,ш,ж,н,к,г,х,а^,а, ъ,э^,э,ы^,ы} кроме позиции согласных {к,г,х} перед {у^,у1,у2, о^,о},
- губной твердый { б,п,в,ф,л,м,у^,у1,у2,о^,о}, а также {к,г,х}, если за ними {у^,у1,у2,о^,о},
- вибрантный твердый {р},
- мягкий, т.е. все согласные, помеченные знаком мягкости, а также {и^,и, ь},
- конец синтагмы (конечный).
The following context classes are highlighted as right:
- front-lingual solid {d, t, s, s, z, q, dz, w, x, n, k, r, x, a ^, a, b, e ^, e, s ^, s} except for the consonant {k , r, x} before {y ^, y1, y2, o ^, o},
- labial firm {b, n, c, φ,,, m, y ^, y1, y2, o ^, o}, as well as {k, r, x}, if {y ^, y1, y2, o ^ o},
- vibrant solid {p},
- soft, i.e. all consonants marked with a soft sign, as well as {u ^, u, b},
- end of syntagma (final).

Согласные разделены на 7 классов:
1) звонкие и глухие смычные (твердые и мягкие) {б,д,г,п,т,к,б',д',г',п', т',к'},
2) твердые фрикативные (кроме [x]) {с,з,ш,ж,ц,ф,дз},
3) мягкие фрикативные (кроме [x']) {с',з'щ',ч'ф',ж',дж'}
4) носовые {м,н,м',н'},
5) плавные сонанты {л,h^,л',й'} и {в,в',x,x'},
6) вибранты {р,р'},
7) йот {j}.
Consonants are divided into 7 classes:
1) voiced and deaf closing (hard and soft) {b, d, d, p, t, k, b ', d', g ', p', t ', k'},
2) solid fricatives (except [x]) {c, s, w, w, q, f, dz},
3) soft fricatives (except [x ']) {c', z'shch, ch'f ', zh, j'}
4) nasal {m, n, m ', n'},
5) smooth sonants {l, h ^, l ', d'} and {c, b ', x, x'},
6) vibrants {p, p '},
7) iot {j}.

Для классов 1) и 2) выделены только правые контексты, всего 4 класса:
- {у^,у,o^},
- конечный,
- для мягких звуков любой контекст, кроме конечного,
- все остальные контексты.
For classes 1) and 2), only the right contexts are allocated, 4 classes in total:
- {y ^, y, o ^},
- final
- for soft sounds, any context except the final one,
- all other contexts.

Для класса 3) выделены 2 класса левых контекстов:
- начальный,
- все остальные; и 2 класса правых контекстов:
- конечный,
- любой, кроме конечного, для мягких звуков.
For class 3), 2 classes of left contexts are distinguished:
- initial
- other; and 2 classes of right contexts:
- final
- any, except the final one, for soft sounds.

Для носовых (класс 4) контексты не выделяются, т.е. реализация этих звуков не зависит от контекстного окружения. For nasal (class 4) contexts are not allocated, i.e. the implementation of these sounds is independent of the contextual environment.

Для класса 5) выделены 4 класса левых контекстов:
- {у^,у,o^},
- начальный,
- {и^,ы^,и,ы,ь,э^},
- все остальные,
и 4 класса правых контекстов:
- {у^,у,о^},
- конечный,
- любой, кроме конечного для мягких звуков,
- все остальные.
For class 5), 4 classes of left contexts are allocated:
- {y ^, y, o ^},
- initial
- {u ^, s ^, u, s, b, e ^},
- other,
and 4 classes of right contexts:
- {y ^, y, o ^},
- final
- any other than the final one for soft sounds,
- other.

Для вибрант (класс 6) выделены левые, правые и связанные контексты, где под связанными контекстами понимаются случаи взаимозависимого существования левого и правого контекстов. Для данного класса - это условие одновременного наличия гласной слева и справа, т.е. интервокальная позиция. Для остальных случаев выделены 4 класса левых контекстов:
- {у^,у,о^,б,п,ф,в,л,м},
- начальный,
- {и^,ы^,и,ы,ь,э^} и все мягкие согласные,
- все остальные контексты;
и 4 класса правых контекстов:
- {у^,у,о^,б,п,ф,в,л,м},
- конечный,
- любой, кроме конечного, для [p'],
- все остальные контексты.
For vibrant (class 6), left, right, and connected contexts are distinguished, where connected contexts are understood as cases of the interdependent existence of left and right contexts. For this class, this is a condition for the simultaneous presence of a vowel on the left and on the right, i.e. intervocal position. For the remaining cases, 4 classes of left contexts are distinguished:
- {y ^, y, o ^, b, n, φ, c, l, m},
- initial
- {and ^, s ^, and, s, b, e ^} and all soft consonants,
- all other contexts;
and 4 classes of right contexts:
- {y ^, y, o ^, b, n, φ, c, l, m},
- final
- any, except the final, for [p '],
- all other contexts.

При формировании аллофонов для вибрант всегда, кроме случаев конечной позиции используются аллофоны для интервокальной позиции, объединяемые с контекстно обусловленными аллофонами, последние всегда приклеиваются со стороны согласного или начала. В случае окружения двух согласных склеиваются два одинаковых контекстно обусловленных аллофона и аллофон для интервокальной позиции вставляется между ними. When forming allophone for vibrant, always, except in cases of final position, allophone for the intervocal position is used, combined with contextually determined allophones, the latter are always glued from the consonant or the beginning. In the case of the environment of two consonants, two identical contextually determined allophones are glued together and an allophone for the intervocal position is inserted between them.

Для класса 7) выделены 4 класса левых контекстов, совпадающих с классами левых контекстов для вибрант, и 3 класса правых контекстов:
- конечный,
- гласные,
- согласные.
For class 7), 4 classes of left contexts are selected that coincide with classes of left contexts for vibrants, and 3 classes of right contexts:
- final
- vowels,
- consonants.

Блок синтеза 5 работает следующим образом. Озвучивание текстового файла осуществляется циклически - по завершении озвучивания очередного фрагмента начинается озвучивание следующего и т.д. Интерфейс предусматривает возможность возврата к прочитанному фрагменту и повторное его прочтение в выбранном режиме. Этот прием представляется вполне оправданным, поскольку текстовый файл может оказаться достаточно большим и нет смысла ожидать, пока он будет весь обработан от начала до конца. Фрагмент текста обрабатывается, преобразуется в звуковой файл, и пока этот звуковой файл выводится через систему ввода-вывода звука, происходит обработка следующего фрагмента. При этом сокращается время реакции (оно равно длительности обработки одного фрагмента, а не всего текста) и уменьшается объем выводимого звукового файла. Block synthesis 5 operates as follows. Sounding of a text file is carried out cyclically - at the end of sounding of the next fragment, sounding of the next begins, etc. The interface provides the ability to return to the read fragment and re-reading it in the selected mode. This technique seems to be justified, since the text file can be quite large and there is no point in waiting until it is completely processed from beginning to end. A fragment of the text is processed, converted into a sound file, and while this sound file is output through the sound input-output system, the next fragment is processed. At the same time, the reaction time is reduced (it is equal to the processing time of one fragment, and not the entire text) and the volume of the output sound file is reduced.

Минимальным однозначно выделяемым фрагментом, синтаксически независимым от соседних фрагментов, является абзац. В предлагаемом синтезаторе чтение осуществляется по абзацам, для этого в блоке 3 и осуществлялось распознавание и выделение абзацев. The smallest unambiguously allocated fragment, syntactically independent of neighboring fragments, is a paragraph. In the proposed synthesizer, reading is carried out in paragraphs; for this, in block 3, paragraphs were recognized and selected.

В блоке 18 осуществляется выбор текущего абзаца для чтения. На информационный вход поступает озвучиваемый текстовый файл, а на первый управляющий вход от блока интерфейса поступает адрес абзаца, с которого начинается чтение. В дальнейшем адрес текущего абзаца поступает на второй управляющий вход с блока 35 вывода звукового файла (следующий абзац, возврат к предыдущему, повторный вывод и т.д.). Блок 19 осуществляет чтение текущего абзаца (перевод из долговременной памяти в оперативную, а в блоке 20 производится предварительный синтаксический анализ абзаца (предварительная обработка знаков пунктуации). In block 18, the current paragraph is selected for reading. A sound text file is delivered to the information input, and the address of the paragraph from which the reading begins begins at the first control input from the interface unit. Subsequently, the address of the current paragraph goes to the second control input from the audio file output block 35 (next paragraph, return to the previous one, repeated output, etc.). Block 19 reads the current paragraph (translation from long-term memory into operational memory, and block 20 performs preliminary syntactic analysis of the paragraph (preliminary processing of punctuation marks).

Блок 21 выделяет в абзаце слова - лексемы, отделенные пробелом или знаком переноса строки (переносы слов ликвидированы в блоке 3). Последовательность кодов, соответствующих Выделенному потоку слов абзаца, поступает в блок селектора 22. Селектор 22 разделяет слова, состоящие из кодов символов русского алфавита и кодов символов метаязыка (букв латинского алфавита, цифр, специальных знаков). Если слово состоит из кодов букв русского алфавита, то оно обрабатывается в блоке 23 распознавания слов на русском алфавите, где на основе морфологического анализа осуществляется распознавание слов русского языка, определение части речи и автоматическая расстановка ударений в словах, в противном случае слово обрабатывается в блоке 34, где оно транслируется в слова на русском алфавите. С выхода первого блока ИЛИ 25, объединяющего результаты этих двух ветвей обработки, поток кодов слов абзаца поступает на вход блока 36, где осуществляется контекстная расшифровка, не распознанных в блоке 23 сокращений слов. Правила контекстной расшифровки сокращений слов представляются в соответствующих пунктах базы знаний синтезатора. Block 21 highlights in the paragraph the words - tokens, separated by a space or a line break character (word breaks are eliminated in block 3). The sequence of codes corresponding to the Selected paragraph word stream arrives at selector 22. Selector 22 separates words consisting of Russian alphabet codes and metalanguage codes (letters of the Latin alphabet, numbers, special characters). If the word consists of codes of letters of the Russian alphabet, then it is processed in block 23 for recognizing words in the Russian alphabet, where on the basis of morphological analysis the words of the Russian language are recognized, part of speech is determined and the stress is automatically placed in words, otherwise the word is processed in block 34 where it is translated into words in the Russian alphabet. From the output of the first block OR 25, combining the results of these two branches of processing, the stream of paragraph word codes is input to block 36, where contextual decryption of word reductions not recognized in block 23 is performed. Rules for contextual decoding of abbreviations of words are presented in the corresponding paragraphs of the synthesizer knowledge base.

В результате в блоке 26 устраняется неоднозначность использования точки - на выходе блока тока определяет только конец предложения. В блоке 27 осуществляется согласование словесных эквивалентов цифровой записи, полученных в блоке 24, и расшифровок слов-сокращений по родам, числам и падежам на основе анализа контекста. As a result, the ambiguity of using a point is eliminated in block 26 — only the end of the sentence is determined at the output of the current block. In block 27, the verbal equivalents of the digital record obtained in block 24 and the decoding of abbreviations by gender, number and case based on the analysis of the context are coordinated.

В блоке 28 выделяются в абзаце фразы и синтагмы как последовательность лексем, разделенных знаками пунктуации. Путем анализа знаков пунктуации и слов фраз и ситагм в блоке 29 определяется коммуникативный тип последних, а в блоке 30 - логическое ударение. На основе информации об ударениях в словах и структурированных фонетических знаний о правилах перехода "буква-фонема" в словах с известным ударением в блоке 31 осуществляется автоматическое фонетическое транскрибирование текста абзаца. Временной процессор 32 и мелодический процессор 33 формируют параметры для управления просодией синтезированной речи: с помощью временного процессора 32 определяются требуемые длительности звуковых элементов, а с помощью мелодического процессора 33 - мелодический контур (аппроксимация закона изменения частоты основного тона). In block 28, phrases and syntagmas are highlighted in the paragraph as a sequence of tokens separated by punctuation marks. By analyzing punctuation marks and words of phrases and sitagms in block 29, the communicative type of the latter is determined, and in block 30 - logical stress. Based on information about accents in words and structured phonetic knowledge of the rules of the transition "letter-phoneme" in words with known accent in block 31, automatic phonetic transcription of the text of the paragraph is carried out. The time processor 32 and the melodic processor 33 form parameters for controlling the prosody of the synthesized speech: with the help of the time processor 32 the required durations of sound elements are determined, and with the help of the melodic processor 33 - melodic contour (approximation of the law of variation of the frequency of the fundamental tone).

В блоке компиляции 34 осуществляется собственно сборка речевого сообщения: фонетическая запись преобразуется в запись на языке алфавита элементов компиляции, необходимые элементы компиляции в виде оцифрованных сегментов естественной речевой волны извлекаются из базы данных, осуществляется их модификация в соответствии с параметрами, определенными в блоках 32 и 33, и сборка речевого сообщения путем композиции модифицированных фрагментов. Файл на выходе блока 34 представляет собой оцифрованный аудиосигнал. In the compilation unit 34, the actual assembly of the speech message is carried out: the phonetic record is converted into a record in the alphabetical language of the compilation elements, the necessary compilation elements in the form of digitized segments of the natural speech wave are extracted from the database, they are modified in accordance with the parameters defined in blocks 32 and 33 , and assembling a voice message by composing modified fragments. The file at the output of block 34 is a digitized audio signal.

В блоке 35 этот файл преобразуется в совместимый с используемой системой ввода-вывода звука формат (например, wav-, vjc- или snd-формат). В блоке 36 полученный звуковой файл передается для вывода через звуковую карту. На основе анализа прерываний от клавиатуры на втором выходе блока формируется управляющий сигнал для перехода к следующему абзацу, для повторного вывода текущего в том же режиме, для повторного формирования текущего в другом режиме или для возврата к предыдущему абзацу. In block 35, this file is converted to a format compatible with the sound input-output system used (for example, wav-, vjc-, or snd-format). In block 36, the received sound file is transmitted for output through the sound card. Based on the analysis of interruptions from the keyboard, a control signal is generated at the second output of the block to go to the next paragraph, to re-display the current in the same mode, to re-form the current in another mode, or to return to the previous paragraph.

Пунктуация характеризуется тем, что располагает очень небольшим количеством средств. В этим связаны две особенности пунктуационных знаков: широта их значения и многозначность. Для снижения этой многозначности в блоке 20 осуществляется предварительный синтаксический анализ абзаца. Блок работает следующим образом. Punctuation is characterized by the fact that it has a very small amount of funds. Two features of punctuation marks are connected in this: the breadth of their meaning and polysemy. To reduce this ambiguity in block 20 is a preliminary parsing of the paragraph. The block works as follows.

Селектор 37 выделяет в абзаце коды знаков пунктуации, которые в зависимости от управляющего сигнала, поступающего на коммутатор 38, обрабатываются либо в блоке 39, либо в блоках 41,42,43,44. The selector 37 selects punctuation character codes in the paragraph, which, depending on the control signal supplied to the switch 38, are processed either in block 39 or in blocks 41,42,43,44.

В блоке 39 знаки пунктуации вербализуются. Этот режим пользователь выбирает в том случае, если хочет иметь полное представление о расстановке знаков препинания в исходном тексте абзаца, в том числе и о тех, которые не получают интонационного выражения в устной речи. Речевое сообщение в этом случае напоминает диктовку для машинистки. In block 39, punctuation marks are verbalized. The user selects this mode if he wants to have a complete picture of the punctuation in the source text of the paragraph, including those that do not receive intonation in oral speech. The voice message in this case resembles a dictation for a typist.

В другом режиме синтаксис абзаца отражается только интонационными средствами. In another mode, the paragraph syntax is reflected only in intonation.

Для уменьшения вышеупомянутой многозначности знаков пунктуации в блоке 41 эти знаки анализируются в контексте. Разделяются символы тире и дефиса (тире имеет пробелы слева и справа). Разделяются скобки как пунктуационный знак (наличие открывающей и закрывающей скобок, как в данном фрагменте) и скобка как графическое средство. Разделяются апостроф в функции кавычек (наличие пробела до или после апострофа) и апостроф, употребляемый в написании слов ("под'езд","а'натюрель"). Разделяются точка и многоточие, точка как пунктуационный знак и десятичная точка или запятая в записи десятичных дробей). В блоке 42 устраняются пунктуационные фикции, т.е. пунктуационные средства графической речи, которые не находят отражения в устной речи. Чисто графическим приемом является то, что после закрывающей скобки ставится знак препинания, которым должна завершаться часть фразы до скобок. В блоке 42 этот знак ставится перед открывающей скобкой, а сами скобки заменяются точками, если за закрывающей скобкой стоит знак завершения фразы, или запятыми, если пробел. Точкой заменяется и восклицательный знак и многоточие, если за ним следует новый абзац или слово с большой буквы (в противном случае - пробел). Заменяются пробелами знаки тире перед кавычками в начале абзаца (чисто графический прием, обозначающий диалог). Заменяются пробелами кавычки. При наличии нескольких пунктуационных знаков подряд (в результате вышеописанных преобразований или ошибок системы оптического распознавания) более слабые знаки поглощаются более сильными. To reduce the aforementioned ambiguity of punctuation marks in block 41, these characters are analyzed in context. Dash and hyphen characters are separated (the dash has spaces on the left and right). The brackets are separated as a punctuation mark (the presence of opening and closing brackets, as in this fragment) and the bracket as a graphic tool. The apostrophe is divided into the function of quotation marks (the presence of a space before or after the apostrophe) and the apostrophe used in the spelling of words ("entrance", "a'nature"). The point and the ellipsis, the point as a punctuation mark and the decimal point or comma in the decimal fraction record) are separated. In block 42, punctuation fictitious, i.e. punctuation means of graphic speech that are not reflected in oral speech. A purely graphic trick is that after the closing parenthesis a punctuation mark is placed, which should end part of the sentence before the parentheses. In block 42, this character is placed before the opening bracket, and the brackets themselves are replaced by periods if the closing bracket is followed by a terminating phrase, or by commas if there is a space. The point is replaced by an exclamation mark and an ellipsis if it is followed by a new paragraph or a word with a capital letter (otherwise, a space). Replaced by spaces are dashes before the quotation marks at the beginning of the paragraph (a purely graphic technique denoting a dialogue). Quotes are replaced by spaces. If there are several punctuation marks in a row (as a result of the above transformations or errors of the optical recognition system), weaker characters are absorbed by stronger ones.

В блоке 43 пунктуационные знаки селектируются по признаку цифрового контекста. Если контекст цифровой (первый выход), пунктуационные знаки вербализуются в блоке 44, например:
5.6 - "5, точка 6,
5,6 - "5, запятая 6",
факс. 276-43-12 - "факс. 246, тире 43, тире 12".
In block 43, punctuation marks are selected based on the digital context. If the context is digital (first exit), punctuation marks are verbalized in block 44, for example:
5.6 - "5, point 6,
5.6 - "5, comma 6",
fax machine. 276-43-12 - "Fax. 246, Dash 43, Dash 12".

Блок 23 распознавания слов на русском языке работает следующим образом. В блоке 45 коды анализируется коды символов, составляющих данное слово. Коды прописных символов преобразуются в коды строчных, а информация о наличии в слове кодов прописных букв запоминается. Далее в зависимости от наличия в составе слова пунктуационного знака и вида этого знака адрес слова передается на дальнейшую обработку. Если слово завершается точкой (первый выход селектора 46), обработка далее осуществляется в первом селекторе 47 слов-сокращений. Последний проверяет наличие данного слова в базе данных (в "списке") обычно используемых сокращений слов. Если слово там обнаружено, оно не обрабатывается в блоке 23 и поступает на его выход с первого выхода первого селектора 47 через третий блок ИЛИ 48. Block 23 word recognition in Russian works as follows. In block 45 codes are analyzed codes of the characters that make up this word. Uppercase codes are converted to lowercase codes, and information about the presence of capitalization codes in a word is stored. Further, depending on the presence of a punctuation mark in the word and the type of this mark, the address of the word is transmitted for further processing. If the word ends with a period (the first output of the selector 46), processing is then carried out in the first selector 47 of the abbreviations. The latter checks for the presence of a given word in the database (in the "list") of commonly used word abbreviations. If the word is found there, it is not processed in block 23 and enters its output from the first output of the first selector 47 through the third block OR 48.

Если слово не является словом-сокращением6 т. е. точка - знак конца предложения, то оно обрабатывается как обычное слово русского языка без всяких пунктуационных знаков (для последних четвертый выход селектора 46 - четвертый блок ИЛИ 49). Эта обработка осуществляется в блоке 50 морфологического анализа. Морфологический анализ осуществляется путем отсечения флексий и префиксов и выделения основы, заключающей лексическое значение слова. If the word is not an abbreviation6, i.e., the dot is the end of sentence, then it is treated as an ordinary word of the Russian language without any punctuation marks (for the latter, the fourth output of selector 46 is the fourth block OR 49). This processing is carried out in block 50 morphological analysis. Morphological analysis is carried out by cutting off inflections and prefixes and highlighting the basis of the lexical meaning of the word.

Морфологический анализ эквивалентен решению уравнения
W = Хp•Х(1)•...Х(n-1)•Х(n),
где W - анализируемое слово,
Хp - префикс или пустое слово,
Х(1) ,...,Х(n-1) - одна или несколько основ (возможно, с соединительной гласной на конце),
Х(n) - флексия или пустое слов.
Morphological analysis is equivalent to solving the equation
W = X p • X (1) • ... X (n-1) • X (n) ,
where W is the analyzed word,
X p is the prefix or empty word,
X (1) , ..., X (n-1) - one or more stems (possibly with a connecting vowel at the end),
X (n) - inflection or empty words.

Уравнение решается следующим образом. В каждом цикле справа отсекается m символов, а оставшаяся слева часть слова рассматривается как потенциальная основа и осуществляется проверка наличия ее в базе данных основ. Если данная часть слова в базе данных не найдена, m увеличивается на единицу (начальное значение m=0), и цикл повторяется. Если ни в одном из циклов соответствующей основы не обнаружено, делается попытка выделить в начале слова один из префиксов списка, если это удается, префикс отсекается и процесс повторяется для оставшейся части слова. Если префикс выделить не удается, слово считается нераспознанным. The equation is solved as follows. In each cycle, m symbols are cut off to the right, and the left part of the word is considered as a potential basis and its presence is checked in the basis database. If this part of the word is not found in the database, m increases by one (initial value m = 0), and the cycle repeats. If no corresponding basis is found in any of the cycles, an attempt is made to select one of the list prefixes at the beginning of the word, if this succeeds, the prefix is cut off and the process is repeated for the rest of the word. If the prefix cannot be selected, the word is considered unrecognized.

Если основа найдена в базе данных, то из базы данных выбирается множество флексий для данной основы, и отделенная справа часть слова сравнивается с ними. Если она совпадает с одной из флексий, слово считается распознанным, для данной словоформы из базы данных извлекается информация о части речи, грамматической форме и ударении (в русском языке в многоосновных словах ударение всегда определяется последней основой). Эта информация связывается с данной словоформой. Если же ни одна из флексий не совпадает с правой частью слова, а одна из них, включая флексию нулевой длины, является ее начальным вхождением, соответствующее слово слева, включая соединительную гласную, если она обнаружена отсекается, и процесс повторяется для оставшейся справа части. Таким образом распознаются слова без окончаний, флексивно изменяемые слова, слова, образованные с помощью префиксов, многоосновные слова. If the basis is found in the database, then many inflections for the given basis are selected from the database, and the part of the word separated on the right is compared with them. If it coincides with one of the inflections, the word is recognized, for this word form information is extracted from the speech part, grammatical form and stress (in Russian in polybasic words the stress is always determined by the last basis). This information is associated with this word form. If none of the inflections coincides with the right part of the word, and one of them, including the inflection of zero length, is its initial occurrence, the corresponding word on the left, including the connecting vowel, if it is detected is cut off, and the process is repeated for the remaining part on the right. Thus, words without endings, flexibly mutable words, words formed using prefixes, polybasic words are recognized.

В русском письме довольно часто используются не все буквы русского алфавита, в частности, вместо графемы "йо" часто употребляется графема "е", а вместо разделительного твердого знака иногда употребляется апостроф. Буква "йо" отсутствует во многих текстовых редакторах, в том числе и в редакторе ОСR CuneiForm. Для правильной фонетической транскрипции необходимо автоматическое восстановление там, где это требуется, графемы "йо". В базе данных содержатся оба варианта написания слов с "йо", и информация о наличии в слове "йо" вместе с другой грамматической информацией поступает на выход блока 50. По этой информации в блоке 51 нужная буква "е" заменяется на "йо". In the Russian letter quite often not all letters of the Russian alphabet are used, in particular, grapheme "e" is often used instead of grapheme "yo", and an apostrophe is sometimes used instead of a solid dividing sign. The letter "yo" is missing in many text editors, including the OSR CuneiForm editor. For the correct phonetic transcription, automatic restoration, where required, of the grapheme "yo" is necessary. The database contains both spellings of the words with "yo", and information about the presence of the word "yo" together with other grammatical information is sent to the output of block 50. According to this information, in block 51, the desired letter "e" is replaced by "yo".

В блоке 52 нераспознанные слова, ассоциированные с прописными буквами, воспринимаются как аббревиатуры. В блоке 53 аббревиатуры транскрибируются по следующим правилам:
- двухбуквенные аббревиатуры читаются "по буквам" (композиция из названий букв) с ударением на последней гласной (РФ - эрэ^ф, КА - каа^);
- трехбуквенные и четырехбуквенные аббревиатуры читаются "как слово" при отсутствии стечения двух и более согласных с ударением на первой прикрытой спереди согласной гласной, в остальных случаях - "по буквам" с ударением на последнем слоге. Например, ВОС - во^c, ЭМИ - эми^, НЛО - энэло^, НАТО - на^ то, ОПЕК - опе^к, ОДМО - одээмо^;
- все остальные читаются "как слово", если в аббревиатуре не более двух согласных подряд, или "по буквам" в противном случае, ударение падает на последнюю прикрытую справа согласной гласную (АСАЛМ - аса^лм, ЮНЕСКО - юне^ ско, ОБХСС - обэхаэсэ^с).
In block 52, unrecognized words associated with capital letters are perceived as abbreviations. In block 53, the abbreviations are transcribed according to the following rules:
- two-letter abbreviations are read "by letter" (composition of the names of the letters) with emphasis on the last vowel (RF - er ^ f, KA - kaa ^);
- three-letter and four-letter abbreviations are read “like a word” in the absence of a combination of two or more consonants with an accent on the first consonant vowel, which is covered in front, in other cases - “spell” with an accent on the last syllable. For example, VOS - vo ^ c, EMP - emi ^, UFO - enelo ^, NATO - on ^ that, OPEC - ope ^ k, ODMO - odeemo ^;
- all the others are read “like a word” if in the abbreviation there are no more than two consonants in a row, or “spell” otherwise, the emphasis falls on the last vowel covered on the right by the consonant (ASALM - asa ^ lm, UNESCO - unesco, OBXSS - obehaese ^ s).

Если слово не воспринято как аббревиатура, то в блоке 54 на основании грамматической информации, ассоциированной со словом, определяется код части речи и в блоке 55 обозначается ударный слог. If the word is not taken as an abbreviation, then in block 54, based on the grammatical information associated with the word, the code for the part of speech is determined and in block 55 the stressed syllable is indicated.

Коды слов, содержащие символ дефиса, со второго выхода селектора 46 поступают на вход второго селектора 56. Последний аналогично первому селектору 47 распознает слова-сокращения, записанные через дефис (например, гр-н - граждани^н, ин-т - институ^т). Эти слова-сокращения в блоке 23 не обрабатываются. Если слово не является сокращением, то в блоке 57 дефис исключается, при этом используются следующие правила:
- в сложных словах, образованных с помощью части основы - "пол-", в сложных прилагательных (темно-синий) и в словах с частицами то-, -либо, -нибудь, кое-, таки-, -ка, -с, склеиваются две части слова, при этом если часть слова после дефиса начинается с йотированной гласной, то дефис заменяется твердым знаком (темно-синий - темносиний, пол-яблока - полъяблока);
- в остальных случаях дефис заменяется пробелом.
Codes of words containing a hyphen character from the second output of the selector 46 go to the input of the second selector 56. The latter, similarly to the first selector 47, recognizes abbreviations written through a hyphen (for example, gr-citizen ^ n, instit-institute ^ t ) These abbreviations in block 23 are not processed. If the word is not an abbreviation, then in block 57 the hyphen is excluded, and the following rules are used:
- in complex words formed with the help of part of the stem - “half-”, in complex adjectives (dark blue) and in words with particles something, either, something, something, so, so, two parts of the word are glued together, and if the part of the word after the hyphen begins with an iotated vowel, then the hyphen is replaced by a solid sign (dark blue - deep blue, half apple - half apple);
- in other cases, the hyphen is replaced by a space.

Далее слово поступает на четвертый блок ИЛИ 49 и обрабатывается по общим правилам. Next, the word goes to the fourth block OR 49 and is processed according to general rules.

В блоке 58 исключается знак апострофа, после чего слово обрабатывается по общим правилам. Последний встречается в словах иноязычного происхождения (а'ла, а'натюрель), задаваемых списком, в именах собственных ирландского, французского и иногда испанского происхождения после "о" и "д" (О'Хиггинс, д'Артаньян, д'Аламеда). В этих случаях разделяемые апострофом части слов склеиваются. В русских словах апостроф иногда пишут вместо разделительного твердого знака после приставок перед мягкими гласными, в этих случаях твердый знак восстанавливается. In block 58, the apostrophe sign is excluded, after which the word is processed according to general rules. The latter is found in words of foreign origin (a'la, a'naturel) specified by the list, in proper names of Irish, French and sometimes Spanish origin after "o" and "d" (O'Higgins, d'Artagnan, d'Alameda) . In these cases, the parts of the words separated by the apostrophe are glued together. In Russian words, an apostrophe is sometimes written instead of a dividing solid sign after prefixes in front of soft vowels, in these cases the solid sign is restored.

Блок 56 расстановки ударений работает следующим образом. Unit 56 accents works as follows.

На основании ассоциированной с данным словом информации в селекторе 59 разделяются распознанные и нераспознанные слова. Based on the information associated with the given word, the recognized and unrecognized words are separated in the selector 59.

Для распознанных слов обозначается ударный слог, а для нераспознанных слов предпринимается попытка определить ударение с помощью некоторых эмпирических правил. Так, например, в русском языке существительные мужского рода, в именительном падеже, оканчивающиеся на "изм", во всех словоформах имеют ударение на этом слоге (эмпириокритици^зм, бихевиори^зм и т.д.), существительные мужского рода со второй основой "лог" имеют ударение на соединительной "о" (фило^логу, стомато^лога). For recognized words, the stressed syllable is denoted, and for unrecognized words, an attempt is made to determine the stress using some rules of thumb. So, for example, in Russian, masculine nouns, in the nominative case, ending in "ism", in all word forms have an accent on this syllable (empirio-criticism ^ Зм, behaviorior ^ Зм, etc.), masculine nouns with a second base "logs" have an accent on the connective "o" (filo ^ logo, dento ^ log).

Блок 24 трансляции слов метаязыка в слова на русском алфавите работает следующим образом. В селекторе 63 разделяются слова, состоящие из различных символов различных подмножеств алфавита метаязыка. Block 24 translation of metalanguage words into words in the Russian alphabet works as follows. The selector 63 separates the words consisting of various characters of various subsets of the metalanguage alphabet.

Если слово состоит из арабских цифр, то обработка осуществляется по цепочке: первый выход селектора 63, шестой блок ИЛИ 64, блок 65. В последнем цифровая запись числа заменяется ее словесным эквивалентом. На втором выходе селектора 63 выделяются слова, состоящие из символов латинского алфавита, из которых на первом выходе селекторе 67 выделяются слова, состоящие из символов латинских цифр - {C,L,X,V,I}. В блоке 68 распознаются числа, записанные латинскими цифрами. Поскольку данные символы обозначают не только латинские цифры, но и могут встречаться в словах языков с латинской письменностью, в блоке 68 предпринимается попытка преобразовать последовательность этих символов в арабскую цифровую запись. Если сочетание этих символов не удовлетворяет правилам записи чисел латинскими цифрами, то последовательность символов рассматривается как обычное слово на латинском алфавите, передается на второй выход блока 68 и далее обрабатывается в блоке 70, как и слова, записанные латинскими буквами, но не содержащие символов, которыми обозначаются латинские цифры (второй выход блока 67). If the word consists of Arabic numbers, then the processing is carried out according to the chain: the first output of the selector 63, the sixth block OR 64, block 65. In the last, the digital record of the number is replaced by its verbal equivalent. At the second output of the selector 63, words consisting of characters of the Latin alphabet are highlighted, of which at the first output of the selector 67 words are selected consisting of characters of Latin digits - {C, L, X, V, I}. In block 68, numbers recorded in Latin digits are recognized. Since these symbols denote not only Latin numbers, but can also be found in the words of languages with Latin script, in block 68 an attempt is made to convert the sequence of these symbols into an Arabic digital notation. If the combination of these characters does not satisfy the rules for writing numbers in Latin digits, then the sequence of characters is considered as an ordinary word in the Latin alphabet, transmitted to the second output of block 68 and then processed in block 70, as well as words written in Latin letters, but not containing characters that Latin numbers are indicated (second output of block 67).

Если же комбинация символов удовлетворяет правилам записи латинских цифр, число преобразуется в блоке 68 в арабскую запись и через шестой блок ИЛИ 64 поступает в блок 65, где вербализуется. If the combination of characters satisfies the rules for writing Latin digits, the number is converted in block 68 to the Arabic notation and through the sixth block OR 64 goes to block 65, where it is verbalized.

В блоке 70 слова, написанные латинскими буквами, транслируются на русский алфавит. Поскольку язык неизвестен, трансляция осуществляется по соответствующим правилам для слов латинского языка. Получается немного забавно, но понятно (windows - виндовс, "made in USA" - "мадэ ин уса"). In block 70, words written in Latin letters are translated into the Russian alphabet. Since the language is unknown, translation is carried out according to the relevant rules for Latin words. It turns out a little funny, but understandable (windows - windows, "made in USA" - "made in usa").

Все остальные символы метаязыка { %,/,+,\ } вербализуются в блоке 71 (% - "процент", / - "дробь", + - "плюс", \ - "слэш" и т.д.). All other characters of the metalanguage {%, /, +, \} are verbalized in block 71 (% - "percent", / - "fraction", + - "plus", \ - "slash", etc.).

Мелодический контур фразы зависит от ее коммуникативного типа. В русском языке выделяют следующие типы предложений: повествовательные, вопросительные, побудительные и восклицательные. Повествовательные предложения наиболее распространены в речи, нередко значительные отрывки произведений состоят из предложений только этого вида. Восклицательные предложения имеют эмоциональную окраску. Множество форм контуров основного тона отличается большим разнообразием, и значительная часть правил управления интонацией не только не формализована, но даже и неизвестна. Поскольку основное назначение предлагаемого комплекса состоит в передаче информации, число возможных форм речевого сообщения более ограничено, чем при речевом общении между людьми. Основным коммуникативным типом предложения при передаче информации является повествовательный тип, который, как отмечалось выше, вообще является основным типом в письменной речи. Поэтому в синтезаторе не воспроизводятся интонационные особенности, отражающие второстепенные оттенки преимущественно экспрессивного характера, а множество коммуникативных типов предложений сводится к двум: повествовательным и вопросительным, четко отражаемым в графической речи знаками пунктуации. The melodic outline of a phrase depends on its communicative type. The following types of sentences are distinguished in the Russian language: narrative, interrogative, incentive, and exclamation. Narrative sentences are most common in speech, often significant passages of works consist of sentences of this type only. Exclamation sentences have an emotional tone. The many forms of the contours of the fundamental tone are very diverse, and a significant part of the rules for controlling intonation are not only not formalized, but even unknown. Since the main purpose of the proposed complex is to transmit information, the number of possible forms of voice communication is more limited than with voice communication between people. The main communicative type of sentence in the transmission of information is the narrative type, which, as noted above, is generally the main type in writing. Therefore, the synthesizer does not reproduce intonation features, reflecting secondary shades of a predominantly expressive nature, and the many communicative types of sentences come down to two: narrative and interrogative, punctuation marks clearly reflected in graphic speech.

Соответственно выделяются шесть коммуникативных типов синтагм:
- завершенность (с возможным логическим ударением) для синтагм, ограниченных знаками {.:;},
- первый тип незавершенности для синтагм, ограниченных знаком запятой,
- второй тип незавершенности для синтагм, ограниченных знаком тире,
- общий вопрос для синтагм, ограниченных знаком вопроса и не содержащих вопросительного слова,
- частный вопрос для синтагм, ограниченных знаком вопроса и содержащих вопросительное слово, на которое падает логическое ударение,
- с логическим выделением выделением для синтагм, содержащих знак логического выделения.
Accordingly, six communicative types of syntagmas are distinguished:
- completeness (with possible logical stress) for syntagms limited by the signs {.:;},
- the first type of incompleteness for syntagms limited by a comma,
- the second type of incompleteness for syntagms limited by a dash,
- a general question for syntagmas limited by a question mark and not containing a question word,
- a particular question for syntagmas that are limited by a question mark and contain a question word, which falls under logical stress,
- with logical highlighting for syntagmas containing a logical highlighting sign.

Знак логического выделения может присутствовать в текстовом файле, если предварительно произведена ручная разметка текста, как это делается, например, в пособиях по художественному чтению. A logical highlight mark may be present in a text file if manual markup of the text has been previously performed, as is done, for example, in fiction books.

Блок 29 определения коммуникативного типа фраз и синтагм работает следующим образом. В селекторе 72 выделяются вопросительные фразы. Если фраза завершается знаком [?], то управление передается блоку 73, где во фразе отыскиваются вопросительные слова. Если такое слово найдено, в конце синтагмы, его содержащей, ставится знак вопроса с признаком специального вопроса, слово маркируется, а в конце фразы, если эта синтагма не последняя, ставится точка. Девятый блок ИЛИ 74 объединяет обе ветви обработки. В блоке 75 по знакам препинания, разделяющим синтагмы, и наличию вопросительного слова или знака логического выделения в синтагме определяется коммуникативный тип синтагмы. Block 29 determining the communicative type of phrases and syntagm works as follows. In selector 72, interrogative phrases are highlighted. If the phrase ends with a [?], Then control is transferred to block 73, where interrogative words are searched for in the phrase. If such a word is found, at the end of the syntagma containing it, a question mark with a sign of a special question is put, the word is marked, and at the end of the phrase, if this syntagma is not the last, a dot is put. The ninth OR block 74 combines both processing branches. In block 75, the communicative type of syntagma is determined by the punctuation marks separating the syntagmas and the presence of a question word or a logical highlight in the syntagma.

Блок 30 определения логического ударения работает следующим образом. The logical stress determination unit 30 operates as follows.

Логическое ударение, как уже отмечалось, не находит формального отражения в графической речи, а определяется семантикой текста. Известные методы машинного семантического анализа весьма далеки от совершенства и работают только в интерактивном режиме, поскольку понятие смысла является интуитивным и плохо формализуемым. Поэтому в синтезаторе используются упрощенные правила определения логического ударения. Logical stress, as already noted, does not find formal reflection in graphic speech, but is determined by the semantics of the text. Well-known methods of machine semantic analysis are very far from perfect and work only in an interactive mode, since the concept of meaning is intuitive and poorly formalized. Therefore, the synthesizer uses simplified rules for determining logical stress.

Селектор 76 выделяет в синтагме слова со знаком логического выделения. Если такое слово обнаружено, то никаких дополнительных действий в блоке не осуществляется, если не обнаружено, то в селекторе 78 выделяются вопросительные слова, маркированные в блоке 73. Если такое слово найдено, в блоке 82 этому слову вместо простого знака ударения приписывается знак логического ударения. Если вопросительного слова не найдено, в блоке 79 проверяются случаи, когда семантически значимые слова определяются контекстом без полного семантического анализа предложения. Таковы, например, случаи, когда употребляются сравнительные частицы: "как бы", "как будто", "словно", "точно", "не то чтобы", или усилительная частица "это", а равно и "значит" в сочетании с инфинитивом. Знаменательное слово в следующем за ним словосочетании логически выделяется. The selector 76 selects words with a logical highlight in the syntagma. If such a word is found, then no additional actions are performed in the block; if it is not found, then the interrogator words marked in block 73 are highlighted in selector 78. If such a word is found, in block 82, the logical stress sign is assigned to this word instead of a simple accent mark. If a question word is not found, in block 79, cases where semantically significant words are determined by context without a complete semantic analysis of the sentence are checked. Such, for example, are the cases when comparative particles are used: “as if”, “as if”, “as if”, “for sure”, “not so much”, or the amplifying particle “this”, as well as “means” in combination with the infinitive. The significant word in the phrase following it logically stands out.

Если таких особых случаев не обнаружено, в блоке 80 определяется последнее знаменательное слово синтагмы, на которое и падает логическое ударение. If such special cases are not found, in block 80 the last significant word of the syntagma is determined, to which the logical stress falls.

Блок 31 фонетического транскрибирования текста функционально решает следующие три задачи: устранение орфографических фикций (блок 83), преобразования буквенной записи в фонетическую (блок 84) и формирование слитной речи (блок 85). Block 31 of phonetic transcription of the text functionally solves the following three tasks: eliminating spelling fiction (block 83), converting the letter recording to phonetic (block 84) and forming continuous speech (block 85).

Трансляция осуществляется путем операции подстановки Sb(W,X,Y), где вхождение Х в слово W заменяется на подслово Y. Translation is carried out by the substitution operation Sb (W, X, Y), where the occurrence of X in the word W is replaced by the subword Y.

В блоке 86 устранения орфографических фикций в окончаниях слов реализованы подстановки в соответствии с правилами пп.2,3 базы знаний: орфографические фикции в окончаниях родительного падежа единственного числа мужского и среднего рода на "-ого" и "-его" и мягкий знак на конце слов после шипящих в наречиях, существительных женского рода и инфинитиве. In block 86 of the elimination of spelling fictions, word substitutions are implemented in accordance with the rules of clauses 2.3 of the knowledge base: spelling fonts in the endings of the genitive case of the singular masculine and neuter for the "-th" and "-th" and a soft sign at the end words after hissing in adverbs, feminine nouns and the infinitive.

В блоке 87 исключаются непроизносимые согласные. At block 87, unpronounceable consonants are excluded.

В блоке 88 осуществляется транскрибирование случаев, когда фонема на письме обозначается сочетанием согласных. In block 88, transcription of cases where the phoneme on the letter is indicated by a combination of consonants is carried out.

В блоке 89 в словах с твердым произношением согласных перед "е" (в основном в словах иноязычного происхождения) "е" заменяется на "э". In block 89, in words with strong pronunciation of consonants before "e" (mainly in words of foreign origin), "e" is replaced by "e".

Для преобразования кодов буквенных символов в коды символов фонем (блок 84) множество согласных букв S разобьем на следующие непересекающиеся классы:
S1 = {п,б,т,д,к,г,в,ф,с,з,р,м,н,л,х} - парные по твердости-мягкости;
S2 = {Ц,Ж,Ш} - непарные твердые;
S3 = {ч,щ} - непарные мягкие;
S4 = {й}.
To convert alphabetic character codes into phoneme character codes (block 84), we divide the set of consonants S into the following disjoint classes:
S 1 = {n, b, t, d, k, r, c, f, s, s, p, m, n, l, x} - paired in hardness and softness;
S 2 = {C, G, W} - unpaired solid;
S 3 = {h, uh} - unpaired soft;
S 4 = {st}.

Гласные буквы разделим на два непересекающихся класса:
G1 = {а,о,у,э,ы} - "твердые",
G2 = {я,е,ю,е,и} - "мягкие".
We divide vowels into two disjoint classes:
G 1 = {a, o, y, e, s} - "solid",
G 2 = {i, e, u, e, and} - "soft."

На множество фонем выделим следующие подмножества:
ф1 - твердые согласные;
ф2 - мягкие согласные;
ф3 = {а,о,у,э,ы,и} - гласные;
ф4 = {т,с,п,ф,к,ш,х,ц,т',c',п',ф',к',ч',щ'} - шумные глухие;
ф5 = {д,з,б,в,г,ж,h,z,д',з',б',в',г',j',ж'} - шумные звонкие;
ф6 = {т,д,с,з,н} - зубные твердые;
ф7 = {т',д',с',з',н'} - зубные мягкие;
ф8 = {к,г,х} - заднеязычные твердые;
ф9 = {к',г',х'} - заднеязычные мягкие,
и зададим соответствие по глухости-звонкости отображением
φ1 : ф4 --> ф5,
а соответствие по мягкости-твердости - отображениями
φ2 : ф6 --> ф7, φ3 : ф8 --> ф9.
The following subsets are distinguished on the set of phonemes:
f 1 - solid consonants;
f 2 - soft consonants;
φ 3 = {a, o, y, e, s, and} are vowels;
f 4 = {t, s, n, f, k, w, x, t, t ', c', n ', f', k ', h', u '} - noisy deaf;
f 5 = {d, s, b, c, d, f, h, z, d ', z', b ', c', r ', j', f '} - noisy voiced;
f 6 = {t, d, s, s, n} - solid dental;
f 7 = {t ', d', s', s', n '} - soft tooth;
Φ 8 = {k, r, x} - back-lingual solid;
f 9 = {k ', r', x '} - posterior soft
and set the correspondence by deafness-voicing by displaying
φ 1 : f 4 -> f 5 ,
and the correspondence in terms of softness-hardness - by mappings
φ 2 : f 6 -> f 7 , φ 3 : f 8 -> f 9 .

Блок 84 преобразования буквенной записи в фонетическую работает следующим образом. Block 84 converting the letter recording into phonetic works as follows.

В селекторе 90 выделяются служебные и слабоударные слова, задаваемые "списками". Служебные слова в блоке 91 теряют ударение и в блоке 92 ассимилируются со знаменательным словом. При этом служебные слова-проклитики (предлоги) "приклеиваются" к следующему слову (если это слово начинается с "мягкой" гласной, то вместо пробела ставится "ъ"). Служебные слова-энклитики (частицы) "приклеиваются" к предыдущему слову. Слово, полученное в результате композиции, через одиннадцатый блок ИЛИ 93 поступает в блок 95 и далее транскрибируется по общим правилам. The selector 90 distinguishes service and weak-impact words defined by "lists". Service words in block 91 lose emphasis and in block 92 are assimilated with the significant word. In this case, auxiliary proclitic words (prepositions) are “stuck” to the next word (if this word begins with a “soft” vowel, then “b” is put instead of a space). Service words-enclitics (particles) "stick" to the previous word. The word resulting from the composition, through the eleventh block OR 93 enters block 95 and then transcribed according to general rules.

В блоке 94 пометка ударения в слабоударных словах заменяется пометкой "слабое ударение". Все прочие слова без изменений через одиннадцатый блок ИЛИ 93 поступают на обработку в блок 95. At a block 94, the stress mark in low impact words is replaced by the mark “low stress”. All other words without changes through the eleventh block OR 93 go to block 95 for processing.

Контексты, содержащие код мягкого знака в блоке 95 транскрибируются с помощью последовательности операций контекстно-обусловленных подстановок:
- Sb(W,sь*,s'), s ∈ S1;
- Sb(W,s1ьs2,s1's2), s1∈ S1 ∪ S3, s2∈ S1;
- Sb(W,s2ьs,s2s), s2∈ S2, s ∈ S;
- Sb(W,sьg,s'й' (g)), s ∈ S1 ∪ S3, g ∈ G;
- Sb(W,sьg,sй' (g)), s ∈ S2, g ∈ G2;
где отображение α : G2 -> ф3 задано таблицей соответствия

Figure 00000002

' - знак мягкости,
* - знак, разделяющий синтагмы.Contexts containing the soft sign code in block 95 are transcribed using the sequence of operations of context-specific substitutions:
- Sb (W, s * *, s'), s ∈ S 1 ;
- Sb (W, s 1 s 2 , s 1 's 2 ), s 1 ∈ S 1 ∪ S 3 , s 2 ∈ S 1 ;
- Sb (W, s 2 bs, s 2 s), s 2 ∈ S 2 , s ∈ S;
- Sb (W, ssg, s'y '(g)), s ∈ S 1 ∪ S 3 , g ∈ G;
- Sb (W, sьg, sй '(g)), s ∈ S 2 , g ∈ G 2 ;
where the map α: G 2 -> ф 3 is given by the correspondence table
Figure 00000002

'- a sign of softness,
* - a sign separating syntagmas.

Контексты, содержащие код твердого знака в блоке 91 транскрибируются путем подстановки
- Sb(W,sъg,s'й' α (g)), s ∈ S1\{д, т, с, з, н}, g∈G2.
Contexts containing the solid sign code in block 91 are transcribed by substitution
- Sb (W, s'g, s'y 'α (g)), s ∈ S 1 \ {d, t, s, s, h}, g∈G 2 .

Транскрибирование сочетаний "согласная-гласная" (СГ) осуществляется в блоке 96 путем подстановок

Figure 00000003

а отображения β и ζ заданы соответственно таблицами
Figure 00000004

Транскрибирование гласных в начале синтагмы осуществляется в блоке 97 путем подстановки
- Sb(W, *g, й′α(g)), g ∈ G2\{и}.Transcription of consonant-vowel combinations (SG) is carried out in block 96 by substitutions
Figure 00000003

and the mappings β and ζ are given by the tables, respectively
Figure 00000004

Transcription of vowels at the beginning of syntagma is performed in block 97 by substitution
- Sb (W, * g, ′α (g)), g ∈ G 2 \ {and}.

Стечения "гласная-гласная" (ГГ) транскрибируются в блоке 98 путем подстановки
- Sb(W, gg2,gй′α(g2)), g ∈ G, g2∈ G2\{и}.
Vowel-Vowel (GG) collisions are transcribed in block 98 by substitution
- Sb (W, gg 2 , gйα (g 2 )), g ∈ G, g 2 ∈ G 2 \ {and}.

Мягкие согласные {ч,щ} при отсутствии знака мягкости транскрибируются в блоке 99 путем подстановки
-Sb(W,s,s'), s ∈ S3.
Soft consonants {h, uh} in the absence of a soft sign are transcribed in block 99 by substitution
-Sb (W, s, s'), s ∈ S 3 .

В блоке 100 учитывается свойственная современному русскому языку тенденция к озвончению шумных глухих согласных перед шумными звонкими и оглушению шумных звонких перед шумными глухими. Реализуется это путем подстановок

Figure 00000005

При сочетании более двух согласных два последних перехода осуществляются последовательно в несколько шагов.Block 100 takes into account the tendency characteristic of modern Russian language for voicing noisy deaf consonants in front of noisy voiced and stunning noisy voiced consonants in front of noisy deaf people. This is implemented by substitutions.
Figure 00000005

With a combination of more than two consonants, the last two transitions are carried out sequentially in several steps.

В русском языке на месте звонких согласных на конце слова (синтагмы) произносятся соответствующие глухие. Это учитывается в блоке 101 путем соответствующих подстановок:

Figure 00000006
.In Russian, in the place of voiced consonants at the end of a word (syntagma), the corresponding deaf are pronounced. This is taken into account in block 101 by appropriate substitutions:
Figure 00000006
.

В блоке 102 транскрибируются двойные согласные в сочетании "твердый-мягкий" путем подстановки
-Sb(W,ss′,s′s′), s ∈ Φ1.
In block 102, double consonants in the hard-soft combination are transcribed by substitution
-Sb (W, ss ′, s′s ′), s ∈ Φ 1 .

В блоке 103 учитывается тенденция к смягчению зубных твердых перед зубными мягкими и непарными мягкими и к смягчению заднеязычных твердых перед заднеязычными мягкими. Соответствующие подстановки:

Figure 00000007
.Block 103 takes into account the tendency to soften dental hard to dental soft and unpaired soft and to soften posterior hard to posterior soft Corresponding substitutions:
Figure 00000007
.

В блоке 104 транскрибируются двойные согласные путем подстановок:
Sb(W,ss,s:), s ∈ Φ1;
Sb(W,s's',s"), s′∈ Φ2.
In block 104, double consonants are transcribed by substitutions:
Sb (W, ss, s :), s ∈ Φ 1 ;
Sb (W, s's', s "), s′∈ Φ 2 .

В русском языке гласные фонемы, выделенные в подмножество ф3, могут произноситься только в ударном слоге. В безударных слогах в русском литературном языке гласные произносятся с той или иной степенью редукции, т.е. сокращения, произносятся менее явственно, и что особенно важно - в безударных слогах некоторые гласные не различаются, совпадая друг с другом.In Russian, vowel phonemes highlighted in a subset of f 3 can be pronounced only in stressed syllable. In unstressed syllables in the Russian literary language, vowels are pronounced with varying degrees of reduction, i.e. abbreviations are pronounced less clearly, and most importantly, in unstressed syllables, some vowels do not differ, coinciding with each other.

Гласные по-разному редуцируются в обычных и слабоударных словах. Разделяются эти слова в селекторе 105 по результатам работы блока 94. Vowels are reduced in different ways in ordinary and weakly stressed words. These words are separated in the selector 105 according to the results of the operation of block 94.

Ударный гласный - наиболее мощный по длительности и интенсивности (из ударных гласных выделяются гласные в последнем ударном слоге синтагмы как наиболее мощные среди ударных гласных). The stressed vowel is the most powerful in duration and intensity (from the stressed vowels, the vowels in the last stressed syllable of the syntagma stand out as the most powerful among stressed vowels).

Первая степень редукции на одну ступень ниже по длительности и интенсивности и соответствует позиции гласной в первом предударном слоге, безударным позициям в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога, и позиции после гласной. The first degree of reduction is one step lower in duration and intensity and corresponds to the vowel position in the first pre-stressed syllable, unstressed positions at the end of the syntagma, at the open end of the word, if the next word begins with the stressed syllable, and the position after the vowel.

Вторая ступень редукции еще ниже по длительности и интенсивности и соответствует всем остальным безударным позициям. The second stage of reduction is even lower in duration and intensity and corresponds to all other unstressed positions.

Эти правила определения степени редукции реализованы в блоке 106. These rules for determining the degree of reduction are implemented in block 106.

В слабоударных словах в блоке 108 псевдоударный гласный редуцируется до первой степени редукции, а все остальные гласные, если они есть, - по общему правилу. In weakly stressed words in block 108, a pseudo-vowel is reduced to the first degree of reduction, and all other vowels, if any, are reduced as a general rule.

Неразличимость некоторых гласных в безударных слогах учитывается в блоке 107, где редуцированные гласные первой степени редукции заменяются в соответствии со следующими правилами. The indistinguishability of some vowels in unstressed syllables is taken into account in block 107, where the reduced vowels of the first degree of reduction are replaced in accordance with the following rules.

В позициях, соответствующих первой степени редукции, [a] и [o] произносятся как соответствующая редуцированная [и] в позиции после мягкого согласного, во всех остальных позициях - как редуцированный [a]. In the positions corresponding to the first degree of reduction, [a] and [o] are pronounced as the corresponding reduced [and] in the position after the soft consonant, in all other positions as pronounced [a].

Гласная [э] первой степени редукции заменяется на [ы] или [и] в позициях соответственно после твердой и мягкой согласных. The vowel [e] of the first degree of reduction is replaced by [s] or [and] in the positions respectively after hard and soft consonants.

В слабоударных словах псевдоударный гласный редуцированный до первой степени редукции, сохраняет качество. In weakly stressed words, a pseudo-shock vowel reduced to the first degree of reduction preserves quality.

В блоке 110 реализованы следующие правила замены редуцированных гласных второй степени редукции. In block 110, the following rules are implemented for replacing reduced vowels of the second degree of reduction.

В позициях, соответствующих второй степени редукции, гласные [о,а,э] не различаются и заменяются на [ъ] в позиции после твердой согласной и на [ь] в позиции после мягкой согласной. В русском языке [ы] может быть только в позиции после твердой согласной, а [и] - после мягкой. Замена - по тому же правилу. In the positions corresponding to the second degree of reduction, the vowels [o, a, e] do not differ and are replaced by [b] in the position after the hard consonant and by [b] in the position after the soft consonant. In Russian, [s] can only be in position after a solid consonant, and [and] after a soft one. Replacement - according to the same rule.

Произнесение звуков на границах слов различно в зависимости от того, выдерживаются между словами паузы, или слова образуют слитный речевой поток. Транскрибирование стыков слов для слитной речи осуществляется в блоке 85 в соответствии с произносительными нормами русского литературного языка. Произношение стечений звонких-глухих согласных в конце-начале слова в слитной речи аналогично произношению таких стечений на стыках морфологических частей слова, "и" в начале слова после твердой согласной в конце предыдущего слова заменяется на "ы". The pronunciation of sounds at the word boundaries is different depending on whether pauses are maintained between the words or the words form a continuous speech stream. Transcription of word joints for continuous speech is carried out in block 85 in accordance with the pronunciation standards of the Russian literary language. The pronunciation of concatenated voiced-deaf consonants at the end-beginning of a word in continuous speech is similar to the pronunciation of such conjunctions at the junctions of the morphological parts of the word, "and" at the beginning of a word after a solid consonant at the end of the previous word is replaced by "s".

В блоке временного процессора 32 определяются требуемые длительности элементов компиляции. Временной процессор 32 реализует следующий алгоритм. In the block of the temporary processor 32, the required compilation element durations are determined. The temporary processor 32 implements the following algorithm.

Длительность гласных определяется степенью редукции и фонетическим качеством гласной. Разделим множество гласных звуков на три класса, отражающих различия в их фонетическом качестве:

Figure 00000008
.The duration of the vowels is determined by the degree of reduction and the phonetic quality of the vowel. We divide the many vowel sounds into three classes, reflecting the differences in their phonetic quality:
Figure 00000008
.

Для любой гласной в фонетической записи текста определим степень выделенности n. Первая, самая низкая степень выделенности (n=1), соответствует гласным второй степени редукции, вторая (n=2) - гласным первой степени редукции, третья (n=3) - ударным гласным за исключением последнего ударного слова в синтагме, этому случаю соответствует четвертая степень выделенности (n= 4). Тогда для ∀g∈Φi, i∈{1,2,3} длительность гласной в зависимости от степени ее выделенности определяется соотношением
τi(n) = τi,0+ (n-1+[n/4])/2
где [ ] - целая часть числа, а τi,0/ - фиксированная для i-го класса константа.
For any vowel in a phonetic record of text, we define the degree of highlighting n. The first, lowest degree of emphasis (n = 1) corresponds to the vowels of the second degree of reduction, the second (n = 2) - to the vowels of the first degree of reduction, the third (n = 3) - to the stressed vowel with the exception of the last stressed word in the syntagma, this case corresponds to fourth degree of isolation (n = 4). Then for ∀g∈Φ i , i∈ {1,2,3} the duration of the vowel, depending on the degree of highlighting, is determined by the relation
τ i (n) = τ i, 0 + (n-1 + [n / 4]) / 2
where [] is the integer part of the number, and τ i, 0 / is a constant fixed for the ith class.

Для ударных гласных в реальной речи существует зависимость длительности от порядкового номера в синтагме содержащего их слова (q) и числа слогов (m) в этом слове. Для гласных со степенью выделенности 3 эта зависимость невелика и ею можно пренебречь, для гласных со степенью выделенности 4 эта зависимость существенна и аппроксимируется соотношением
τi′(4) = τi,1+ 0.74(τi(4)-τi,1)(m-1)(q-1),
где τi,1 - фиксированная для i-го класса длительность.
For stressed vowels in real speech, there is a dependence of the duration on the sequence number in the syntagm of the word containing them (q) and the number of syllables (m) in this word. For vowels with a degree of isolation 3, this dependence is small and can be neglected, for vowels with a degree of isolation 4, this dependence is significant and approximated by the relation
τ i ′ (4) = τ i, 1 + 0.74 (τ i (4) -τ i, 1 ) (m-1) (q-1),
where τ i, 1 is the duration fixed for the ith class.

В позиции конца синтагмы гласные продлеваются независимо от степени их редукции и фонетического качества. Влияние согласных на длительность гласных учитывается лишь в наиболее ярких случаях, а именно, в позиции перед интервокальными вибрантами. В позиции перед интервокальными вибрантами и в конце синтагмы длительность любого гласного определяется дополнительными соотношениями, соответственно

Figure 00000009

где δ - фиксированная для всех гласных величина,
κ - длительность инерционного хвоста.At the end of the syntagma, vowels are extended regardless of their degree of reduction and phonetic quality. The effect of consonants on the duration of vowels is taken into account only in the most striking cases, namely, in the position in front of the intervocal vibrants. In the position in front of the intervocal vibrants and at the end of the syntagma, the duration of any vowel is determined by additional ratios, respectively
Figure 00000009

where δ is a fixed value for all vowels,
κ is the duration of the inertial tail.

При определении временных характеристик согласных учтены следующие факторы, позиции согласного относительно границ синтагмы и фонетического слова, интервокальная-неинтервокальная позиция, позиция в кластере (стечения согласных), простой-сложный состав базовых элементов компиляции, необходимых для звукового синтеза согласных. When determining the temporal characteristics of consonants, the following factors were taken into account, the positions of the consonant with respect to the boundaries of the syntagma and the phonetic word, the intervocal-non-intervocal position, the position in the cluster (consonant clusters), the simple-complex composition of the basic compilation elements necessary for sound synthesis of consonants.

Максимальную длительность согласные имеют в интервокальной позиции (в позиции между гласными). Эта длительность принимается за эталонную. Зависимость длительности согласных от сегментного окружения определена соотношением
τ = βiτ0, i∈{1,2,3,4}
где τ0 - эталонная длительность,
i=1 для позиции перед гласной (β1 = 0,8),
i=2 для позиции перед согласным (β2 = 0.6),
i= 3 для элементов компиляции, соответствующих фазе взрыва смычных согласных и вибрантам ( β3 = 1,0),
i=4 для долгих согласных ( β4 = 1,3).
The consonants have the maximum duration in the intervocal position (in the position between the vowels). This duration is taken as a reference. The dependence of the duration of the consonants on the segmented environment is determined by the ratio
τ = β i τ 0 , i∈ {1,2,3,4}
where τ 0 is the reference duration,
i = 1 for the position in front of the vowel (β 1 = 0.8),
i = 2 for the position before the consonant (β 2 = 0.6),
i = 3 for compilation elements corresponding to the explosion phase of the consonant consonants and vibrants (β 3 = 1,0),
i = 4 for long consonants (β 4 = 1.3).

Мелодический процессор 33 определяет закон временного изменения частоты основного тона в пределах синтагмы. Закон этот аппроксимируется кусочно-линейной зависимостью, при этом для каждого элемента компиляции определяются значения частоты основного тона для в качестве его начальной и конечной мелодических характеристик. Значения этих характеристик квантованы по шкале музыкальных тонов и формируются слева направо слоговыми циклами, т.е. в рамках последовательности sn g, где g гласный, sn, (n≥0) - последовательность из n согласных, предшествующих гласному.The melodic processor 33 determines the law of a temporary change in the frequency of the fundamental tone within the syntagma. This law is approximated by a piecewise linear dependence, and for each compilation element the values of the fundamental frequency are determined for as its initial and final melodic characteristics. The values of these characteristics are quantized on a scale of musical tones and are formed from left to right by syllabic cycles, i.e. within the sequence s n g, where g is a vowel, s n , (n≥0) is a sequence of n consonants preceding a vowel.

Сегментирование синтагмы на слоговые фрагменты осуществляется в блоке 111. Это сегментирование эквивалентно итерационному решению уравнения
Сi = Sigi,1Ci+1, ∀g∈Ψg с начальными условиями С0 = С,
где gi,1 - первое вхождение любого символа гласной в фонетической записи g∈Ψg в слово Сi,
С - синтагма, рассматриваемая как слов на алфавите Ψ = Ψs∪Ψg,,
Ψg= Ψ1∪ Ψ2∪ Ψ3 - подмножество гласных,
Ψs - подмножество согласных, под i-ым слоговым фрагментом понимается композиция Sigi,1.
The syntagma is segmented into syllable fragments in block 111. This segmentation is equivalent to an iterative solution of the equation
С i = S i g i, 1 C i + 1 , ∀g∈Ψ g with initial conditions С 0 = С,
where g i, 1 is the first occurrence of any vowel symbol in the phonetic notation g∈Ψ g in the word С i ,
C is a syntagma considered as words in the alphabet Ψ = Ψ s ∪Ψ g ,,
Ψ g = Ψ 1 ∪ Ψ 2 ∪ Ψ 3 is a subset of vowels,
Ψ s - a subset of consonants, the i-th syllable fragment refers to the composition S i g i, 1 .

При определении мелодических характеристик элементов компиляции, входящих в текущий слог, учитываются следующие факторы: коммуникативный тип синтагмы, положение слога относительно мелодического центра контура (главноударного слога) - совпадение, слева, справа, положение слога относительно границ синтагмы, степень выделенности гласного в текущем слоге, степень выделенности гласного в предшествующем слоге, количество символьных элементов в слоге, тип символьного элемента (гласный-согласный) и его положение относительно начала слога (первый-непервый). When determining the melodic characteristics of compilation elements included in the current syllable, the following factors are taken into account: the communicative type of syntagma, the position of the syllable relative to the melodic center of the contour (main syllable syllable) - coincidence, left, right, position of the syllable relative to the boundaries of the syntagma, the degree to which the vowel is highlighted in the current syllable, the degree to which the vowel is highlighted in the previous syllable, the number of symbolic elements in the syllable, the type of symbolic element (vowel-consonant) and its position relative to the beginning of the syllable (ne first-time).

Принято, что вариации частоты основного тона составляют одну октаву относительно базового уровня Fб.It is accepted that the fundamental frequency variations are one octave relative to the base level F b .

Для коммуникативных типов синтагмы - завершенность и два вида незавершенности - выделено семь классов слогов:,
К1 - безударные слоги (n≤2),
К2 - простые ударные слои (n=3),
К3 - последний ударный слог синтагмы, не являющийся мелодическим центром (n=4),
К4 - последний ударный слог синтагмы, являющийся мелодическим центром (n=4) для синтагмы с типом завершенности,
К5 - мелодический центр, не совпадающий с последним ударным слогом (n=3) для синтагмы с типом завершенности,
К6 - мелодический центр для синтагм с первым типом незавершенности (n= 4),
К7 - мелодический центр для синтагм с первым типом незавершенности (n= 3),
К8 - мелодический центр для синтагм с вторым типом незавершенности (n= 4),
К9 - мелодический центр для синтагм с вторым типом незавершенности (n= 3).
For communicative types of syntagma - completeness and two types of incompleteness - seven classes of syllables are distinguished :,
K 1 - unstressed syllables (n≤2),
K 2 - simple shock layers (n = 3),
K 3 - the last stressed syllable of the syntagma, which is not a melodic center (n = 4),
K 4 - the last stressed syllable of the syntagma, which is the melodic center (n = 4) for a syntagma with a type of completeness,
K 5 - melodic center that does not coincide with the last stressed syllable (n = 3) for a syntagma with a type of completeness,
K 6 is the melodic center for syntagmas with the first type of incompleteness (n = 4),
K 7 is the melodic center for syntagmas with the first type of incompleteness (n = 3),
K 8 is the melodic center for syntagmas with the second type of incompleteness (n = 4),
K 9 is the melodic center for syntagmas with the second type of incompleteness (n = 3).

Для каждого класса слогов задана совокупность правил, с помощью которых определяются начальные и конечные мелодические характеристики символьных элементов слога. For each class of syllables, a set of rules is specified by which the initial and final melodic characteristics of the symbolic elements of the syllable are determined.

Для класса К1 заданы 5 правил:
1) Fн = Fк = Fб для всех элементов слога.
For class K 1, 5 rules are set:
1) F n = F to = F b for all elements of the syllable.

2) Понижение на полтона для первого элемента слога, далее ΔF = 0. 2) Decrease by half a tone for the first element of the syllable, then ΔF = 0.

3) Частота основного тона равномерно (в полутоновой шкале) понижается, Fк для последнего элемента слога ниже Fн первого элемента слога на пол-октавы, если текущий слог - первый из ударных слогов синтагмы, и на 3 полутона, если он - непервый.3) The frequency of the fundamental tone decreases uniformly (in a grayscale scale), F k for the last syllable element is lower than F n of the first syllable element by half an octave if the current syllable is the first of the syntagma stressed syllables, and by 3 half tones if it is not the first one.

4) Для согласных Fн = Fк = Fк предшествующего гласного, для гласного Fн = Fк предшествующего гласного, Fк на три полутона ниже Fб.4) For consonants F n = F k = F to the previous vowel, for the vowel F n = F to the previous vowel, F k three semitones below F b .

5) То же, что и 4), но для гласного Fк = Fб.5) Same as 4), but for the vowel F k = F b .

Для класса К2 заданы 5 правил:
1) Частота основного тона равномерно (в полутоновой шкале) повышается, Fк для последнего элемента слога выше Fн первого элемента слога на пол-октавы.
For class K 2, 5 rules are set:
1) The frequency of the fundamental tone increases uniformly (in a grayscale scale), F k for the last syllable element is higher than F n the first syllable element by half an octave.

2) Аналогично правилу 1) для К1.2) Similar to rule 1) for K 1 .

3) Частота основного тона равномерно (в полутоновой шкале) повышается, Fк для последнего элемента слога выше Fн первого элемента слога на пол-октавы, если текущий слог - первый из ударных слогов синтагмы, и на 3 полутона, если он - непервый.3) The frequency of the fundamental tone increases uniformly (in the grayscale scale), F k for the last syllable element is higher than F n the first syllable element by half an octave if the current syllable is the first of the syntagma stressed syllables, and by 3 half tones if it is not the first one.

4) Аналогично правилу 2) для К1.4) Similar to rule 2) for K 1 .

5) Аналогично правилу 5) для К1.5) Similarly to rule 5) for K 1 .

Для класса К3 заданы 2 правила:
1) Аналогично правилу 4) для К1, но для гласных Fк на пол-октавы ниже Fб.
For class K 3, 2 rules are set:
1) Similar to rule 4) for K 1 , but for vowels F k half an octave below F b .

2) Аналогично правилу 1) для К1.2) Similar to rule 1) for K 1 .

Для класса К4 заданы 2 правила:
1) Для согласных Fн = Fк = Fб,
Для гласного Fн = Fб, Fк на пол-октавы ниже Fб.
For class K 4, 2 rules are set:
1) For consonants F n = F k = F b ,
For a vowel, F n = F b , F k half an octave below F b .

2) Частота основного тона равномерно (в полутоновой шкале) понижается, и для последнего элемента слога Fк на полоктавы ниже Fб.2) The frequency of the fundamental tone is uniformly (in a grayscale scale) reduced, and for the last element of the syllable F k , half an octave below F b .

Для класса К5 заданы 2 правила:
1) Для согласных
для первого Fн = Fк и на пол-октавы выше Fб,
далее Fн = Fк,
Для гласного Fн на пол-октавы выше Fб, Fк = Fб.
For class K 5, 2 rules are set:
1) For consonants
for the first F n = F k and half an octave above F b ,
further F n = F to
For a vowel, F n is half an octave higher than F b , F k = F b .

2) Для согласных Fн = Fк = Fк предшествующего гласного,
для гласного Fн = Fк предшествующего элемента, Fк = Fб.
2) For consonants F n = F k = F k of the preceding vowel,
for the vowel F n = F to the preceding element, F to = F b .

Для классов Кh, h ≥ 6 заданы 2 правила:
1) Для первого элемента слога Fн = Fб, далее частота основного тона равномерно (в полутоновой шкале) повышается, и для последнего элемента слога Fк на сексту выше Fб.
For the classes K h , h ≥ 6, 2 rules are given:
1) For the first element of the syllable F n = F b , then the frequency of the fundamental tone evenly (in the grayscale scale) increases, and for the last element of the syllable F k a sixth higher than F b .

2) Для первого элемента слога Fн = Fк предшествующего гласного, далее частота основного тона равномерно (в полутоновой шкале) повышается, суммарное повышение составляет сексту.2) For the first element of the syllable F n = F to the previous vowel, then the frequency of the fundamental tone increases uniformly (in a grayscale scale), the total increase is sixth.

Применение вышеуказанных правил контекстно обусловлено. Зададим на множестве L слогов синтагмы отображение ξ : L --> R1, при этом ξ(l) = m, если l∈ Km, ξ(*)=0.The application of the above rules is contextually determined. We define a map ξ: L -> R 1 on the set L of syntagma syllables, and ξ (l) = m if l∈ K m , ξ (*) = 0.

Тогда условия применения вышеуказанных правил могут быть заданы матрицей

Figure 00000010
, где i = ξ(l) для слога - левого контекста, j - для правого, а значение элемента аi,j соответствует номеру правила.Then the conditions for applying the above rules can be defined by the matrix
Figure 00000010
, where i = ξ (l) for the syllable is the left context, j is for the right, and the value of the element a i, j corresponds to the rule number.

Для класса К1 :
а0,j = 1 для ∀j,
a2,6 = 3,
a8,j = 4, a9,j = 5 для ∀j,
ai,j = 2 всех остальных i и j.
For class K 1 :
and 0, j = 1 for ∀j,
a 2.6 = 3,
a 8, j = 4, a 9, j = 5 for ∀j,
a i, j = 2 of all other i and j.

Для класса К2:
а0,j = 1 для j ∈ {1,2,4,5} и а0,j = 2 для всех остальных j,
a1,j = 3 для j ∈ {1,2,4,5},
а9,j = 5 для ∀j,
аi,j = 4 всех остальных i и j.
For class K 2 :
a 0, j = 1 for j ∈ {1,2,4,5} and a 0, j = 2 for all other j,
a 1, j = 3 for j ∈ {1,2,4,5},
and 9, j = 5 for ∀j,
and i, j = 4 of all other i and j.

Для класса К3:
а7,j = 2 для ∀j,
аi,j = 1 всех остальных i и j.
For class K 3 :
and 7, j = 2 for ∀j,
and i, j = 1 of all the remaining i and j.

Для класса К4:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.
For class K 4 :
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.

Для класса К5:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.
For class K 5 :
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.

Для классов Кh, h ≥ 6:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.
For classes K h , h ≥ 6:
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.

Для синтагм с коммуникативным типом "общий вопрос" выделим следующие классы слогов:
Q1 - безударные и простые ударные слоги (n≤3),
Q2 - последний ударный слог - не мелодический центр (n=4),
Q3 - мелодический центр (n=3),
Q4 - мелодический центр (n=4).
For syntagms with the communicative type “general question”, we distinguish the following classes of syllables:
Q 1 - unstressed and simple stressed syllables (n≤3),
Q 2 - the last stressed syllable - not a melodic center (n = 4),
Q 3 - melodic center (n = 3),
Q 4 - melodic center (n = 4).

Для класса Q1 заданы 4 правила:
1) Для согласных Fн = Fк = Fб, для гласного Fн = Fк предшествующего элемента, а Fк на 1 полутон выше Fб.
There are 4 rules for class Q 1 :
1) For consonants F n = F k = F b , for a vowel F n = F k of the preceding element, and F k 1 semitone higher than F b .

2) Для первого элемента слога Fн = Fк предшествующего гласного, а Fк на один полутон ниже, для последующих элементов ΔF=0.2) For the first element of the syllable, F n = F k of the previous vowel, and F k one semitone lower, for subsequent elements ΔF = 0.

3) Для согласных действует правило 2), для гласного Fн = Fк предшествующего звука, Fк = Fб.3) For consonants, rule 2) applies, for a vowel F n = F k of the previous sound, F k = F b .

4) Аналогично правилу 3), но для гласного Fк на пол-октавы ниже Fб.4) Similar to rule 3), but for a vowel F k half an octave below F b .

Соответственно элементы матрицы, обусловливающей применение этих правил, равны:
а0,j = 1 для ∀j,
а1,j = 2 для j ≤ 2 и а1,j = 1 для j ≥ 3,
а2,j = 2 для ∀j,
а3,j = 3 для ∀j,
a4,j = 4 для ∀j.
Accordingly, the elements of the matrix determining the application of these rules are equal to:
and 0, j = 1 for ∀j,
a 1, j = 2 for j ≤ 2 and a 1, j = 1 for j ≥ 3,
and 2, j = 2 for ∀j,
and 3, j = 3 for ∀j,
a 4, j = 4 for ∀j.

Для класса Q2 действует бесконтекстное правило, аналогичное правилу 1) для Q1, но Fк на пол-октавы ниже Fб.For class Q 2 , a contextless rule is applied, similar to rule 1) for Q 1 , but F k is half an octave below F b .

Для классов Q3 и Q4 заданы 2 правила:
1) Если слог - первый в синтагме, то для первого элемента Fн = Fб, далее частота основного тона равномерно (в полутоновой шкале) повышается и для последнего элемента слога Fк на октаву выше Fб.
For classes Q 3 and Q 4, 2 rules are specified:
1) If the syllable is the first in the syntagma, then for the first element F n = F b , then the frequency of the fundamental tone evenly (in a grayscale scale) increases for the last element of the syllable F k an octave above F b .

2) Если слог - не первый в синтагме, то действует правило, аналогичное 1), но для первого элемента Fн = Fк предшествующего гласного, а для последнего - Fк на октаву выше Fн первого элемента.2) If the syllable is not the first in the syntagma, then a rule similar to 1) applies, but for the first element F n = F to the previous vowel, and for the last - F k an octave higher than F n of the first element.

Для частного вопроса выделены два класса слогов Р1 - не мелодический центр и Р2 - мелодический центр.For a particular question, two classes of syllables P 1 - non-melodic center and P 2 - melodic center are distinguished.

Для класса Р1 заданы 5 правил:
1) Fн = Fк = Fб,
2) Аналогично правилу 1) для К2,
3) Аналогично правилу 2) для Q1,
4) Для первого элемента Fн = Fк предшествующего гласного, далее частота основного тона равномерно (в полутоновой шкале) понижается и для последнего элемента Fк на сексту ниже Fн первого элемента,
5) Для первого элемента Fн = Fк предшествующего гласного, Fк = Fб, для всех остальных Fн = Fк = Fб.
For class P 1, 5 rules are set:
1) F n = F to = F b ,
2) Similar to rule 1) for K 2 ,
3) Similar to rule 2) for Q 1 ,
4) For the first element F n = F k of the previous vowel, then the frequency of the fundamental tone uniformly (in a grayscale scale) decreases and for the last element F k a sixth below the F n of the first element,
5) For the first element, F n = F k of the preceding vowel, F k = F b , for all other F n = F k = F b .

Правило 1) действует для слогов, находящихся левее мелодического центра, если следующий слог - также не мелодический центр, правило 2) - для слогов, непосредственно предшествующих мелодическому центру, правило 3) - для слогов правее мелодического центра (но не непосредственно за ним), правило 4) - для слога, следующего за мелодическим центром, если это - последний слог или последний ударный слог, правило 5) - для слога, следующего за мелодическим центром, если справа есть хотя бы один ударный слог. Rule 1) applies to syllables located to the left of the melodic center, if the next syllable is also not a melodic center, rule 2) - for syllables immediately preceding the melodic center, rule 3) - for syllables to the right of the melodic center (but not immediately after it), rule 4) - for the syllable following the melodic center, if this is the last syllable or last stressed syllable, rule 5) - for the syllable following the melodic center, if there is at least one stressed syllable on the right.

Для класса Р2 заданы 2 правила:
1) Для первого слога синтагмы для согласных Fн = Fк = Fб, для гласного Fн на сексту выше Fб, а Fк на три полутона выше Fб.
For class P 2, 2 rules are set:
1) For the first syllable of the syntagma, for consonants F n = F k = F b , for a vowel F n sixths higher than F b , and F k three semitones above F b .

2) Для прочих контекстов для согласных Fн = Fк = Fк, предшествующего элемента, для гласного Fн = Fк предшествующего элемента, а Fк на три полутона выше Fб.2) For other contexts, for consonants F n = F k = F k , the preceding element, for a vowel F n = F k the preceding element, and F k three semitones above F b .

Для согласных в конце синтагмы Fн = Fк = Fк предшествующего гласного.For consonants at the end of the syntagma, F n = F k = F to the previous vowel.

Блок компиляции 34 работает следующим образом. В блоке 114 синтагмы обрабатываются слева направо, и для каждого текущего символа выделяются левый и правый контексты (предшествующий и последующий символы). В шифраторе 115 формируются коды элементов компиляции, соответствующих символам фонетической записи в соответствующем контексте. Код элемента компиляции представляет собой кортеж k1, k2, k3, k4>, где k1 - код текущего символьного элемента, k2 - код класса символьного элемента, k3 - код класса левого контекста и k4 - код класса правого контекста.The compilation unit 34 operates as follows. In block 114, the syntagms are processed from left to right, and left and right contexts (preceding and following characters) are allocated for each current character. The encoder 115 generates compilation element codes corresponding to the phonetic symbols in the corresponding context. The compilation element code is a tuple k 1 , k 2 , k 3 , k 4 >, where k 1 is the code of the current character element, k 2 is the code class of the character element, k 3 is the class code of the left context, and k 4 is the code of the class of the right context.

По этим кодам из блока 116 акустико-сегментной базы синтеза извлекаются соответствующие элементы синтеза в виде отрезков оцифрованной речевой волны. В блоке 117 эти последовательности отсчетов преобразуются в соответствии с определенными во временном процессоре 32 и мелодическом процессоре 33 временными и частотными параметрами элементов компиляции. According to these codes, the corresponding synthesis elements in the form of segments of a digitized speech wave are extracted from block 116 of the acoustic-segment synthesis base. In block 117, these sequences of samples are converted in accordance with the time and frequency parameters of the compilation elements defined in the time processor 32 and the melodic processor 33.

Для квазипериодических отрезков речевой волны изменение временных и частотных характеристик соответствующего элемента компиляции осуществляется путем функционального преобразования
φ(t) = Σφi(t) _→ φ′(t) = Σφj(t), i≤n0,j≤n
где φ(t) - сегмент естественной речевой волны, соответствующий текущему элементу компиляции;
φi(t) - ортогональная последовательность функций, совпадающих с φ(t) на интервале i-го квазипериода;
n0 - число квазипериодов в сегменте естественной речевой волны,
n=max(2,[τ(F(tк )+F(tн))/2] - требуемое число квазипериодов,
τ - определенная в блоке временного процессора требуемая длительность элемента компиляции;
F(tн) и F(tк) - соответственно определенные в блоке мелодического процессора начальное и конечное значения частоты основного тона.
For quasiperiodic segments of the speech wave, the time and frequency characteristics of the corresponding compilation element are changed by functional transformation
φ (t) = Σφ i (t) _ → φ ′ (t) = Σφ j (t), i≤n 0 , j≤n
where φ (t) is the segment of the natural speech wave corresponding to the current compilation element;
φ i (t) is the orthogonal sequence of functions coinciding with φ (t) on the interval of the i-th quasiperiod;
n 0 is the number of quasiperiods in the segment of the natural speech wave,
n = max (2, [τ (F (t to ) + F (t n )) / 2] is the required number of quasiperiods,
τ is the required duration of the compilation element defined in the block of the temporary processor;
F (t n ) and F (t k ) - respectively, the initial and final values of the frequency of the fundamental tone defined in the block of the melodic processor.

Figure 00000011
- результат функционального преобразования φi(t), где индекс i для ∀j определяется областью истинности предиката
Figure 00000012

Функциональное преобразование
Figure 00000013
определено следующим образом
Figure 00000014

где
Figure 00000015
- требуемая длительность j-го квазипериода.
Figure 00000011
is the result of the functional transformation φ i (t), where the index i for ∀j is determined by the region of truth of the predicate
Figure 00000012

Functional conversion
Figure 00000013
defined as follows
Figure 00000014

Where
Figure 00000015
- the required duration of the j-th quasiperiod.

Для шумовых отрезков речевой волны частота основного тона, естественно не меняется (для шумового сигнала такой параметр вообще отсутствует), изменяется лишь длительность путем повторения или урезания базового элемента. For noise segments of a speech wave, the frequency of the fundamental tone naturally does not change (for a noise signal, such a parameter is completely absent), only the duration changes by repeating or trimming the base element.

Как видно из вышеприведенных соотношений, при изменении длительности звука в первую очередь изменяется длительность фазы выдержки, а длительности фаз экскурсии и рекурсии по возможности сохраняются. As can be seen from the above relations, when the duration of the sound changes, the duration of the exposure phase first of all changes, and the durations of the excursion and recursion phases are preserved if possible.

В блоке композиции 118 преобразованные последовательности отсчетов, соответствующие элементам компиляции записываются последовательно одна за другой в порядке, определяемом символьной фонетической записью. In composition block 118, the converted sequences of samples corresponding to compilation elements are recorded sequentially one after another in the order determined by the symbolic phonetic record.

В блоке 35 формируется звуковой файл выбранного формата, т.е. перед полученной последовательностью отсчетов формируется заголовок звукового файла. In block 35, an audio file of the selected format is formed, i.e. Before the obtained sequence of samples, the header of the sound file is formed.

Блок 36 осуществляется вывод звукового файла через звуковую плату. Block 36 outputs the sound file through the sound card.

При реализации текстовой базы данных реализован подход, аналогичный используемому в системе Xanadu. При таком подходе берутся соответствующие документы (книги, статьи и т.д.), переводятся в электронную форму без семантических изменений и пристыковываются друг к другу, образуя одну "большую книгу". Специализированные надстройки позволяют идентифицировать любую книгу в целом и каждую ее составляющую в отдельности. Для идентификации информации в БД используются такие надстройки как список названий статей в алфавитном порядке, список авторов в алфавитном порядке, иерархический индексный указатель для имеющейся информации в виде раздела "Содержание". Такой подход гарантирует исчерпывающий доступ, но утомителен при просмотре. When implementing a text database, an approach similar to that used in the Xanadu system is implemented. With this approach, relevant documents (books, articles, etc.) are taken, translated into electronic form without semantic changes and docked to each other, forming one "big book". Specialized add-ons allow you to identify any book as a whole and each of its components separately. To identify information in the database, add-ons are used such as a list of article titles in alphabetical order, a list of authors in alphabetical order, a hierarchical index index for available information in the form of a "Contents" section. This approach guarantees comprehensive access, but tedious to browse.

Для более быстрого получения информации, релевантной запросу, используется доступ к информации через механизм ключевых слов. Механизм фильтров обеспечивает селективность, при этом фильтры могут быть заданы через ключевые слова или фильтрация может быть выполнена с указанием атрибутов документов. For faster retrieval of information relevant to the request, access to information through the mechanism of keywords is used. The filter mechanism provides selectivity, while filters can be specified through keywords or filtering can be performed with document attributes.

Интерфейс БД предусматривает диалог пользователя и ЭВМ на акустическом и тактильном уровнях. Сообщения компьютера (пункты меню и другие сообщения) дублируются речевым выходом через звуковую плату и отображаются на тактильном дисплее. Пользователь вводит информацию в ЭВМ через клавиатуру ПК в режиме "озвучивания клавиатуры" (при нажатии клавиши называется набранный символ), набранное сообщение озвучивается через синтезатор с подтверждением или неподтверждением ввода. Вводимой информацией могут являться названия статей, список ключевых слов, атрибуты фильтра (например, диапазон годов публикации - просмотреть все имеющиеся в базе публикации данного автора с такого-то по такой-то год), или составленный пользователем комментарий к документу (аннотация, предметная область, список ключевых слов и т.д.). Эта информация может как самостоятельно набираться пользователем, так и набираться зрячим оператором на индивидуальной карточке пользователя на гибком магнитном носителе. Пользователь лишь выбирает пункт меню: ввод с клавиатуры, ввод с флоппи-диска. На индивидуальной карточке также фиксируются все сеансы общения пользователя с системой, поэтому пользователь может получить быстрый доступ к информации, с которой работал ранее, но атрибуты которой забыл. С гибкого диска может также вводиться и заноситься в БД документ, кем-то ранее переведенный в электронную форму. The database interface provides a dialogue between the user and the computer at the acoustic and tactile levels. Computer messages (menu items and other messages) are duplicated by a speech output through a sound card and displayed on a tactile display. The user enters information into the computer through the PC keyboard in the "voice acting" mode (when you press a key, the typed character is called), the typed message is voiced through the synthesizer with confirmation or non-confirmation of the input. The information entered can be the names of articles, a list of keywords, filter attributes (for example, the range of publication years - see all the publications in a given author’s database from such-and-such to such-and-such year), or a comment made by the user on the document (abstract, subject area , a list of keywords, etc.). This information can be either independently typed by the user or typed by the sighted operator on an individual user card on a flexible magnetic medium. The user only selects a menu item: keyboard input, input from a floppy disk. On an individual card, all user communication sessions with the system are also recorded, so the user can get quick access to the information that he worked with earlier, but whose attributes he forgot. From a floppy disk, a document can also be entered and entered into the database by someone previously converted into electronic form.

Блок интерфейса 9 предусматривает автоматический запуск всех блоков устройства в необходимой последовательности, по завершении каждого шага пользователю выдается речевое сообщение и запрашивается подтверждение на выполнение следующего шага (нажатие одной из двух клавиш воспринимается компьютером как ответ "да" или "нет"). По завершении работы с документом управление передается интерфейсу БД для того, чтобы пользователь мог связать с документом необходимую информацию. The interface unit 9 provides for the automatic start of all device blocks in the necessary sequence, at the end of each step, the user is given a voice message and a confirmation is requested for the next step (pressing one of the two keys is perceived by the computer as the answer “yes” or “no”). Upon completion of work with the document, control is transferred to the database interface so that the user can associate the necessary information with the document.

Предлагаемое устройство позволяет незрячему или слабовидящему пользователю самостоятельно и независимо получать образование, как общее, так и профессиональное, самостоятельно и независимо осуществлять интеллектуальную и профессиональную деятельность с использованием аппаратно-программных комплексов, что позволяет решить социальную проблему профессиональной и социальной адаптации инвалидов в реальной социальной среде. При наличии предлагаемого устройства незрячий человек может составить себе информационную базу данных по своему выбору и использовать для этой цели любого вида литературу, предназначенную для зрячих пользователей, в том числе и уникальную, например, по истории музыки, сводам законов, истории, науки и т.д. Пользователь с помощью данного устройства может практически самостоятельно или при минимальном обращении к посторонним лицам получать интеллектуальное развитие, получить высшее образование и стать высококлассным профессионалом. The proposed device allows a blind or visually impaired user to independently and independently receive education, both general and professional, independently and independently carry out intellectual and professional activities using hardware and software systems, which allows to solve the social problem of the professional and social adaptation of people with disabilities in a real social environment. With the proposed device, a blind person can compile an information database of his choice and use for this purpose any kind of literature intended for sighted users, including unique ones, for example, on the history of music, codes of laws, history, science, etc. d. Using this device, the user can practically independently or with minimal use of unauthorized persons receive intellectual development, get a higher education and become a high-class professional.

Данное устройство может быть также использовано для самостоятельного и независимого изучения и совершенствования русского языка с использованием живой и/или синтезированной русской речи непосредственно с печатного или другого вида носителя информации как зрячими, так и незрячими пользователями, а также инвалидами с нарушением опорно-двигательного аппарата. This device can also be used for independent and independent study and improvement of the Russian language using live and / or synthesized Russian speech directly from a printed or other type of information carrier by both sighted and blind users, as well as people with disabilities with a violation of the musculoskeletal system.

Устройство может быть использовано для коллективного пользования в библиотеках для слепых, в школах для слепых на уроках и при проведении самостоятельного изучения материала. The device can be used for collective use in libraries for the blind, in schools for the blind in lessons and when conducting independent study of the material.

Преимущества при использовании данного устройства для изучения языка очевидны. Кроме вышеуказанных особенностей и преимуществ пользователь одновременно воспринимает визуальное воспроизведение текста и синхронное ему речевое звучание текста. Одновременное использование двух анализаторов - слухового и зрительного, позволяет резко повысить восприятие любой информации на русском языке. The benefits of using this device to learn a language are obvious. In addition to the above features and advantages, the user simultaneously perceives the visual reproduction of the text and the simultaneous speech sound of the text. The simultaneous use of two analyzers - auditory and visual, can dramatically increase the perception of any information in Russian.

Claims (29)

1. Компьютерное устройство для чтения плоскопечатного текста, содержащее последовательно соединенные блок оптического ввода плоскопечатного текста и блок оптического распознавания текста, блок синтеза речи по орфографическому тексту, блок формирования аудиосигнала и оконечный аудиоблок, отличающееся тем, что блок оптического ввода плоскопечатного текста выполнен в виде сканера, блок формирования аудиосигнала выполнен в виде звуковой платы, блок синтеза речи по орфографическому тексту выполнен в виде блока синтеза русской речи по орфографическому тексту, в устройство дополнительно введены блок унификации текстового файла, блок текстовой базы данных, тактильный дисплей, блок сопряжения тактильного дисплея с персональным компьютером и блок интерфейса, при этом выход блока оптического распознавания текста через последовательно соединенные блок унификации текстового файла и блок текстовой базы данных соединен с информационным входом блока синтеза русской речи по орфографическому тексту, а через блок сопряжения - с входом тактильного дисплея, выход блока синтеза речи по орфографическому тексту через звуковую плату соединен с оконечным аудиоблоком, управляющие входы блока сопряжения тактильного дисплея и сканера, блока оптического распознавания текста, блока унификации текстового файла, блока синтеза русской речи по орфографическому тексту и блока текстовой базы данных соединены с соответствующими выходами блока интерфейса. 1. A computer device for reading flat-printed text, containing a series-connected optical input unit for flat-printed text and an optical text recognition unit, a speech synthesis unit for spelling text, an audio signal generating unit, and an audio terminal unit, characterized in that the optical flat input unit for text printing is made in the form of a scanner , the block for generating an audio signal is made in the form of a sound card, the block for synthesizing speech according to the spelling text is made in the form of a block for synthesizing Russian speech according to To the graphic text, a text file unification unit, a text database unit, a tactile display, a tactile display interface unit to a personal computer and an interface unit are additionally introduced into the device, while the output of the optical text recognition unit through a series-connected text file unification unit and a text database unit connected to the information input of the block of the synthesis of Russian speech according to the spelling text, and through the pairing block - with the input of the tactile display, the output of the block of the synthesis of speech and orthographic text through a sound card connected to the terminal audio unit, the control inputs interface unit tactile display and scanner unit OCR unit unification text file, block the synthesis of Russian speech orthographic text and text base unit are connected to the corresponding interface unit outputs. 2. Устройство по п.1, отличающееся тем, что блок унификации текстового файла содержит последовательно соединенные блок распознавания многоколоночного текста, блок переформатирования текстового файла в одноколоночный, блок распознавания левых и правых границ текста, блок распознавания красных строк, блок выделения абзацев, блок исключения символов метаязыка, не входящих в допустимый алфавит, блок ликвидации переносов слов и блок переформатирования текстового файла. 2. The device according to claim 1, characterized in that the unit of unification of the text file contains sequentially connected block recognition multicolumn text, block reformatting the text file into one-column, block recognition of left and right borders of the text, block recognition of red lines, paragraph selection block, block exclusion characters of metalanguage that are not included in the valid alphabet, block for word wraps, and block for reformatting a text file. 3. Устройство по п.1, отличающееся тем, что блок синтеза русской речи по орфографическому тексту выполнен в виде блока компиляционного синтеза речи и содержит последовательно соединенные блок выбора текущего абзаца, блок чтения текущего абзаца, блок предварительного синтаксического анализа абзаца, блок выделения слов в абзаце, селектор подслов на подмножествах алфавита метаязыка, блок распознавания слов на русском алфавите, первый блок ИЛИ, блок контекстной расшифровки сокращений слов, блок согласования, блок выделения фраз и синтагм, блок определения коммуникативного типа фраз и синтагм, блок определения логического ударения, блок фонетического транскрибирования текста, временной процессор, методический процессор, блок компиляции, блок формирования звукового файла и блок вывода звукового файла, первый выход которого является выходом блока синтеза русской речи по орфографическому тексту, а второй выход соединен с вторым входом управления блока выбора текущего абзаца, первый вход управления которого является первым управляющим входом блока синтеза русской речи по орфографическому тексту, вторым управляющим входом которого является управляющий вход блока предварительного синтаксического анализа абзаца, второй выход селектора подслов на подмножествах алфавита метаязыка через блок трансляции слов метаязыка в слова на русском алфавите подключен к второму входу первого блока ИЛИ. 3. The device according to claim 1, characterized in that the block for the synthesis of Russian speech according to the spelling text is made in the form of a block for compilation speech synthesis and contains a series-connected block for selecting the current paragraph, a block for reading the current paragraph, a block for preliminary parsing of the paragraph, a block for selecting words in paragraph, subword selector on subsets of the metalanguage alphabet, block for recognizing words in the Russian alphabet, first block OR, block for contextual decoding of abbreviations of words, matching block, block for selecting phrases and syntagm, bl ok determination of the communicative type of phrases and syntagmas, a logical stress determination unit, a phonetic text transcription unit, a time processor, a methodological processor, a compilation unit, an audio file generation unit and an audio file output unit, the first output of which is the output of a Russian speech synthesis unit from a spelling text, and the second output is connected to the second control input of the current paragraph selection block, the first control input of which is the first control input of the Russian language synthesis block by a graphic text, the second control input of which is the control input of the preliminary parser of the paragraph, the second output of the subword selector on the subsets of the metalanguage alphabet through the block of translation of metalanguage words into words in the Russian alphabet is connected to the second input of the first OR block. 4. Устройство по п.3, отличающееся тем, что блок предварительного синтаксического анализа абзаца содержит последовательно соединенные селектор знаков пунктуации, коммутатор, блок вербализации знаков пунктуации и второй блок ИЛИ, второй выход коммутатора через последовательно соединенные блок контекстного анализа пунктуационных знаков, блок устранения не находящих отражения в устной речи пунктуационных знаков, блок устранения графических пунктуационных фрикций и блок вербализации знаков точки, запятой и тире в записи чисел подключен к второму входу второго блока ИЛИ, а управляющий вход коммутатора является управляющим входом блока предварительного синтаксического анализа. 4. The device according to claim 3, characterized in that the block of preliminary parsing of the paragraph contains sequentially connected punctuation mark selector, a switch, a punctuation mark verbalization block and a second OR block, the second output of the switch through sequentially connected punctuation mark context analysis block, the elimination block is not punctuation marks that are reflected in spoken language, the block for eliminating graphic punctuation frictions, and the block for verbalizing the signs of a point, comma, and dash in the record of numbers is connected the second input of the second OR block and the control input of the switch control input is pre parsing unit. 5. Устройство по п.3, отличающееся тем, что блок распознавания слов на русском алфавите содержит последовательно соединенные блок преобразования символьных кодов к одному регистру, селектор слов, включающих пунктуационные знаки, первый селектор слов-сокращений и третий блок ИЛИ, второй выход первого селектора слов-сокращений через последовательно соединенные четвертый блок ИЛИ, блок морфологического анализа, блок восстановления графемы "йо", селектор аббревиатур и блок расшифровки аббревиатур подключен к второму входу третьего блока ИЛИ, второй выход селектора аббревиатур через последовательно соединенные блок определения части речи и блок расстановки ударений подключен к третьему входу третьего блока ИЛИ, второй выход селектора слов, включающих пунктуационные знаки, через второй селектор слов-сокращений подключен к четвертому входу третьего блока ИЛИ, второй выход второго селектора слов-сокращений через блок исключения дефиса подключен к второму входу четвертого блока ИЛИ, третий выход селектора слов, включающих пунктуационные знаки, через блок исключения апострофа подключен к третьему входу четвертого блока ИЛИ, четвертый вход которого соединен с четвертым выходом селектора слов, содержащих пунктуационные знаки, выход третьего блока ИЛИ является выходом блока распознавания слов на русском алфавите. 5. The device according to claim 3, characterized in that the block for recognizing words in the Russian alphabet contains a series-connected block for converting symbol codes to one register, a selector for words including punctuation characters, a first abbreviation selector and a third OR block, the second output of the first selector abbreviations through a fourth block OR connected in series, a morphological analysis block, a grapheme recovery block “yo”, an abbreviation selector and an abbreviation decryption unit are connected to the second input of the third IL block And, the second output of the abbreviation selector through a series-connected speech part determination unit and the accentuation unit is connected to the third input of the third OR block, the second output of the word selector including punctuation marks is connected to the fourth input of the third OR block through the second abbreviation selector, the second output the second selector of abbreviation words through the hyphen block is connected to the second input of the fourth OR block, the third output of the word selector including punctuation characters is through the apostr exclusion block F is connected to the third input of the fourth OR unit, a fourth input coupled to a fourth output selector words containing punctuation marks, the third block is the output of OR output word recognition unit to the Russian alphabet. 6. Устройство по п.5, отличающееся тем, что блок морфологического анализа содержит блоки памяти для префиксов, основ и флексий, реализованные в виде базы данных, отношения между которыми заданы отображением
F : M _→ S,
где M - множество основ, определяющих лексическое значение слов русского языка;
S - множество классов флексий,
блок морфологического анализа выполнен реализующим алгоритм решения уравнения
W = Xp•X(1)•...•X(n-1)•X(n),
где W - анализируемое слово;
Xp - префикс или пустое слово;
X(1), . . ., X(n-1) - одна или несколько основ (возможно соединительной гласной на конце);
X(n) - флексия или пустое слово.
6. The device according to claim 5, characterized in that the morphological analysis unit contains memory blocks for prefixes, bases and inflections, implemented in the form of a database, the relationship between which is specified by the display
F: M _ → S,
where M is the set of bases defining the lexical meaning of the words of the Russian language;
S - many classes of inflections,
morphological analysis unit is implemented implementing the algorithm for solving the equation
W = X p • X (1) • ... • X (n-1) • X (n) ,
where W is the analyzed word;
X p is the prefix or empty word;
X (1) ,. . ., X (n-1) - one or more stems (possibly a connecting vowel at the end);
X (n) - inflection or empty word.
7. Устройство по п.5, отличающееся тем, что блок расстановки ударений содержит последовательно соединенные селектор распознанных слов, блок определения ударного слога и пятый блок ИЛИ, второй выход селектора распознанных слов через блок расстановки ударений по эмпирическим правилам соединен с вторым входом пятого блока ИЛИ. 7. The device according to claim 5, characterized in that the stress allocation unit comprises sequentially connected a recognized word selector, a stressed syllable determination unit and a fifth OR block, the second output of the recognized word selector through an empirical rule stress allocation unit is connected to the second input of the fifth OR block . 8. Устройство по п.3, отличающееся тем, что блок трансляции слов метаязыка в слова на русском алфавите содержит последовательно соединенные селектор подмножеств алфавита метаязыка, шестой блок ИЛИ, блок вербализации арабской цифровой записи чисел и седьмой блок ИЛИ, второй выход селектора подмножеств алфавита метаязыка через последовательно соединенные селектор латинских цифр и блок преобразования латинской записи чисел в арабскую соединен с вторым входом шестого блока ИЛИ, второй выход блока преобразования латинской записи чисел в арабскую через последовательно соединенные восьмой блок ИЛИ и блок русификации слов латинского алфавита соединен с вторым входом седьмого блока ИЛИ, второй выход селектора латинских цифр соединен с вторым входом восьмого блока ИЛИ, третий вход которого соединен с третьим выходом селектора подмножеств алфавита метаязыка, четвертый выход которого через блок вербализации знаков алфавита метаязыка соединен с третьим входом седьмого блока ИЛИ, выход которого является выходом блока трансляции слов метаязыка в слова русского алфавита. 8. The device according to claim 3, characterized in that the unit for translating metalanguage words into words in the Russian alphabet contains a sequentially connected selector of subsets of the metalanguage alphabet, the sixth OR block, the verbalization block of the Arabic digital number record and the seventh OR block, the second output of the selector of the subsets of the metalanguage alphabet through a series-connected selector of latin digits and a block for converting latin numbers to Arabic, connected to the second input of the sixth block OR, the second output of the block for converting latin numbers to ar through the eighth OR block and the Russification block of Latin alphabet words connected in series with the second input of the seventh OR block, the second output of the Latin digit selector is connected to the second input of the eighth OR block, the third input of which is connected to the third output of the subset of the metalanguage alphabet, the fourth output of which the metalanguage alphabet verbalization block is connected to the third input of the seventh OR block, the output of which is the output of the metalanguage word translation block into the words of the Russian alphabet. 9. Устройство по п.3, отличающееся тем, что блок выделения фраз и синтагм выполнен реализующим алгоритм выделения фраз путем разбиения абзаца на лексемы, отделенные символами {.?}, и алгоритм выделения синтагм во фразах путем разбиения фразы на лексемы, отделенные символами (,;:-). 9. The device according to claim 3, characterized in that the block for selecting phrases and syntagma is implemented that implements the algorithm for selecting phrases by breaking a paragraph into lexemes separated by {.?} Symbols, and the algorithm for highlighting syntagms in phrases by breaking a phrase into lexemes separated by characters ( ;; :-). 10. Устройство по п.3, отличающееся тем, что блок определения коммуникативного типа фраз и синтагм содержит последовательно соединенные селектор вопросительных фраз, блок определения синтагмы, содержащий вопрос, девятый блок ИЛИ и блок определения коммуникативного типа синтагм, второй выход селектора вопросительных фраз соединен с вторым входом девятого блока ИЛИ. 10. The device according to claim 3, characterized in that the unit for determining the communicative type of phrases and syntagm contains sequentially connected selector of interrogative phrases, the unit for determining syntagma containing a question, the ninth block OR and the unit for determining communicative type of syntagm, the second output of the selector of interrogative phrases is connected to the second input of the ninth block OR. 11. Устройство по п.10, отличающееся тем, что блок определения коммуникативного типа синтагмы выполнен реализующим алгоритм определения следующих коммуникативных типов: завершенность, соответствующая синтагмам, завершающимся знаками {.:;), первый и второй типы незавершенности, соответствующие синтагмам, завершающимся соответственно знаками (,-), общий и частный вопросы для синтагм, завершающихся знаком {?} и соответственно не содержащих или содержащих вопросительное слово, а также синтагмы с акцентом, содержащие знак логического выделения на выделяемом слове. 11. The device according to claim 10, characterized in that the communicative type determination unit of the syntagma is implemented that implements an algorithm for determining the following communicative types: completeness corresponding to syntagms ending with signs {.:;), The first and second types of incompleteness corresponding to syntagms ending with signs respectively (, -), general and particular questions for syntagmas ending with {?} and respectively not containing or containing a question word, as well as accented syntagmas containing a logical emphasis and the highlighted word. 12. Устройство по п.3, отличающееся тем, что блок определения логического ударения содержит последовательно соединенные селектор логически выделенных слов и десятый блок ИЛИ, второй выход селектора логически выделенных слов через последовательно соединенные селектор слов, содержащих частный вопрос, и одиннадцатый блок ИЛИ подключен к второму входу десятого блока ИЛИ, второй выход селектора слов, содержащих частный вопрос, через селектор семантически значимых слов подключен к второму входу одиннадцатого блока ИЛИ, а второй выход селектора семантически значимых слов через блок определения последнего знаменательного слова синтагмы подключен к третьему входу одиннадцатого блока ИЛИ, выход десятого блока ИЛИ является выходом блока определения логического ударения. 12. The device according to claim 3, characterized in that the logical stress determination unit comprises a sequentially connected selector of logically allocated words and a tenth OR block, a second output of a selector of logically distinguished words through a series-connected selector of words containing a particular question, and the eleventh OR block is connected to the second input of the tenth block OR, the second output of the selector of words containing a particular question, through the selector of semantically significant words connected to the second input of the eleventh block OR, and the second output of the selector and semantically meaningful words through the last determination unit notional word syntagm is connected to the third input of the OR block eleventh, tenth block output is the output of OR logical stress determination unit. 13. Устройство по п.3, отличающееся тем, что блок фонетического транскрибирования текста содержит последовательно соединенные блок устранения орфографических фикций, блок преобразования буквенной записи в фонетическую и блок формирования слитной речи. 13. The device according to claim 3, characterized in that the phonetic transcription block of the text contains sequentially connected spelling elimination block, a letter to phonetic conversion unit, and a unit speech formation unit. 14. Устройство по п.13, отличающееся тем, что блок устранения орфографических фикций содержит последовательно соединенные блок устранения орфографических фикций в окончаниях слов, блок исключения непроизносимых согласных, блок замены сочетаний согласных эквивалентной буквенной записью и блок преобразования записи слов с твердым произношением "е". 14. The device according to p. 13, characterized in that the spelling removal unit contains spelling units in the word endings, an unpronounceable consonant elimination unit, a consonant combination replacing unit with an equivalent alphabetic entry, and a solid pronunciation pronunciation unit “e” . 15. Устройство по п.13, отличающееся тем, что блок преобразования буквенной записи в фонетическую содержит последовательно соединенные селектор служебных слов, блок ликвидации ударений в служебных словах, блок ассимиляции служебных слов, двенадцатый блок ИЛИ, блок транскрибирования контекстов с мягким знаком, блок транскрибирования контекстов с твердым знаком, блок определения мягкости согласных перед маркированными гласными, блок транскрибирования йотированных гласных в начале синтагмы, блок транскрибирования йотированных гласных в позиции после гласной, блок транскрибирования непарных мягких согласных, блок определения звонкости-глухости согласных в сочетаниях согласных, блок оглушения шумных звонких согласных в конце синтагмы, блок ассимиляции твердых согласных перед мягкими, блок транскрибирования двойных согласных, селектор слабоударных слов, блок определения степени редукции гласных в словах с ударением, блок замены гласных первой степени редукции, тринадцатый блок ИЛИ и блок замены гласных второй степени редукции, второй выход селектора служебных слов через блок замены ударений в слабоударных словах соединен с вторым входом двенадцатого блока ИЛИ, а третий выход - с третьим входом двенадцатого блока ИЛИ, второй выход селектора слабоударных слов через блок определения степени редукции в слабоударных словах соединен с вторым входом тринадцатого блока ИЛИ. 15. The device according to p. 13, characterized in that the unit for converting the letter recording into the phonetic contains a serially connected selector of service words, a unit for eliminating stresses in service words, a unit for assimilating service words, the twelfth OR block, a transcription block of contexts with a soft sign, a transcription block solid-sign contexts, a unit for determining the softness of consonants before marked vowels, a unit for transcribing iotated vowels at the beginning of a syntagma, a unit for transcribing iotated vowels in positions after the vowel, unit for transcribing unpaired soft consonants, unit for determining the voiced-deafness of consonants in combinations of consonants, unit for stunning noisy voiced consonants at the end of the syntagma, unit for assimilation of solid consonants before soft, unit for transcribing double consonants, selector of weakly stressed words, unit for determining the degree of reduction of vowels in stressed words, a vowel replacement unit of the first degree of reduction, the thirteenth OR block and a vowel replacement unit of the second degree of reduction, the second output of the service word selector Without the accent replacement block in low impact words, it is connected to the second input of the twelfth OR block, and the third output is connected to the third input of the twelfth OR block, the second output of the low impact word selector is connected to the second input of the thirteenth OR block through the block for determining the degree of reduction in low impact words. 16. Устройство по п.13, отличающееся тем, что блок формирования слитной речи выполнен реализующим алгоритм фонетического транскрибирования стыков слов в синтагме в соответствии с русскими орфоэпическими нормами. 16. The device according to item 13, wherein the unit for the formation of continuous speech is implemented that implements the algorithm for phonetic transcription of word joints in the syntagma in accordance with Russian orthoepic norms. 17. Устройство по п.15, отличающееся тем, что блок определения степени редукции гласных выполнен реализующим алгоритм, в котором первая степень редукции, или вторая степень выделенности соответствует гласным в позициях первого предударного слога, в безударных позициях в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога, и позиции после гласной, а вторая степень редукции, или первая степень выделенности - гласным во всех остальных безударных позициях, третья степень выделенности соответствует гласным в ударных позициях, кроме последнего ударного слога синтагмы, гласному которого соответствует четвертая степень выделенности. 17. The device according to p. 15, characterized in that the unit for determining the degree of reduction of vowels is made implementing an algorithm in which the first degree of reduction or the second degree of emphasis corresponds to vowels in the positions of the first pre-stressed syllable, in unstressed positions at the end of the syntagma, in the open end of the word if the next word begins with the stressed syllable, and the position after the vowel, and the second degree of reduction, or the first degree of emphasis, with the vowel in all other unstressed positions, the third degree of emphasis corresponds to the vowels in stressed positions, except for the last stressed syllable of the syntagma, the vowel of which corresponds to the fourth degree of emphasis. 18. Устройство по п.15, отличающееся тем, что блок замены гласных первой степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных первой степени редукции путем следующих подстановок:
Sb(W,у,у2) - для гласной "у" в любом контексте;
Sb(W, s'g, s'и), g∈{o,a,э}, Sb(W, sэ, sы) - для контекстов типа "согласная-гласная" ("sg" или "s'g");
Sb(W, о, а) - для всех остальных контекстов.
18. The device according to p. 15, characterized in that the unit for replacing vowels of the first degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the first degree of reduction by the following substitutions:
Sb (W, y, y2) - for the vowel "y" in any context;
Sb (W, s'g, s'и), g∈ {o, a, э}, Sb (W, sе, sy) - for consonant-vowel contexts ("sg" or "s'g");
Sb (W, о, а) - for all other contexts.
19. Устройство по п.15, отличающееся тем, что блок определения степени редукции гласных в слабоударных словах выполнен реализующим алгоритм редуцирования псевдоударного гласного в слабоударных словах до первой степени редукции. 19. The device according to p. 15, characterized in that the unit for determining the degree of reduction of vowels in low impact words is implemented that implements an algorithm for reducing the pseudo-impact vowel in weak impact words to the first degree of reduction. 20. Устройство по п.15, отличающееся тем, что блок замены гласных второй степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных второй степени редукции путем следующих подстановок:
Sb(W,у,у1) - для гласной "у" в любом контексте,
Sb(W,sg,sъ), g∈{o,a,э,ы} и Sb(W, s'g, s'ь), g∈{o,a,э,и} - для контекстов типа "согласная-гласная".
20. The device according to p. 15, characterized in that the unit for replacing vowels of the second degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the second degree of reduction by the following substitutions:
Sb (W, y, y1) - for the vowel "y" in any context,
Sb (W, sg, sb), g∈ {o, a, e, s} and Sb (W, s'g, s'b), g∈ {o, a, e, and} - for contexts of type " consonant-vowel. "
21. Устройство по п.3, отличающееся тем, что временной процессор выполнен реализующим алгоритм, ставящий каждому символьному элементу фонетической записи в соответствие временной интервал, определяющий длительность соответствующего звука - элемента компиляции, при этом гласные разбиты на три класса, отражающие различия в их фонетическом качестве,
Ψ1 = {ъ,а,а};
Ψ2 = {ь,и,и,ы,ы,у1,у2,у};
Ψ3 = {э,э,o,o},
где ^ - знак ударения, длительности гласных в зависимости от степени выделенности n определены соотношением
τi(n) = τi,0+(n-1+[n/4])/2,i∈{1,2,3},
где i - индекс класса гласной;
[a] - целая часть,
τi,0 - фиксированная для каждого класса константа, длительности гласных в зависимости от номера, содержащего их слова в синтагме (q), и числа слогов в слове (m) определены для гласных четвертой степени выделенности дополнительным соотношением
Figure 00000016

кроме того, длительность любого гласного в позиции перед интервокальными вибрантами и длительность гласных в конце синтагмы определены дополнительными соотношениями соответственно
Figure 00000017

Figure 00000018

где δ - фиксированная для всех гласных величина, ∂б - длительность итерционного хвоста, длительность согласных в зависимости от сегментного окружения и долготы согласного определена соотношением
τ = βiτ0, j∈(1,2,3,4} ,
где τ0 - эталонная длительность, соответствующая длительности в интервокальной позиции;
β1 = 0,8 для позиции после согласного перед гласным и β2 = 0,6 для позиции между согласными, при этом для элементов компиляции, соответствующих фазе взрыва смычных согласных и вибрантам β3= 1, β4 = 1,3 для долгих согласных.
21. The device according to claim 3, characterized in that the time processor is implemented implementing an algorithm that sets each symbolic element of the phonetic record in accordance with a time interval that determines the duration of the corresponding sound - compilation element, while the vowels are divided into three classes that reflect differences in their phonetic quality
Ψ 1 = {b, a, a };
Ψ 2 = {b, u, and , s, s , y1, y2, y };
Ψ 3 = {e, e , o, o },
where ^ is the stress sign, the duration of the vowels depending on the degree of emphasis n is determined by the relation
τ i (n) = τ i, 0 + (n-1 + [n / 4]) / 2, i∈ {1,2,3},
where i is the vowel class index;
[a] is the integer part,
τ i, 0 is a constant fixed for each class, the duration of the vowels depending on the number containing their words in the syntagma (q), and the number of syllables in the word (m) are determined for the vowels of the fourth degree of emphasis by the additional relation
Figure 00000016

in addition, the duration of any vowel in the position in front of the intervocal vibrants and the duration of the vowels at the end of the syntagma are determined by additional ratios, respectively
Figure 00000017

Figure 00000018

where δ is a fixed value for all vowels, ∂b is the duration of the iterative tail, the duration of the consonants depending on the segment environment and the longitude of the consonant is determined by the relation
τ = β i τ 0 , j∈ (1,2,3,4},
where τ 0 is the reference duration corresponding to the duration in the intervocal position;
β 1 = 0.8 for the position after the consonant before the vowel and β 2 = 0.6 for the position between the consonants, while for compilation elements corresponding to the explosion phase of the consonant consonants and vibrants β 3 = 1, β 4 = 1.3 for long consonants.
22. Устройство по п.3, отличающееся тем, что мелодический процессор содержит последовательно соединенные блок сегментирования синтагмы на слоговые фрагменты, блок определения класса слогового фрагмента и блок определения параметров закона изменения частоты основного тона для сегментов слогов. 22. The device according to claim 3, characterized in that the melodic processor comprises sequentially connected syntagma segmentation block for syllable fragments, a syllable fragment class determination unit and a fundamental tone law parameter determination unit for syllable segments. 23. Устройство по п.22, отличающееся тем, что блок сегментирования синтагмы на слоговые фрагменты выполнен реализующим итерационный алгоритм решения уравнений
C(i) = S(i)g(i,l)C(i+l), ∀g∈ψg,
с начальными условиями C(o) = C,
где g(i, l) - первое вхождение любого символьного элемента гласного g∈Ψg в слово C(i);
C - синтагма, рассматриваемая как слово на алфавите;
Ψ = Ψs∪ Ψgq= Ψ1∪ Ψ2∪ Ψ3 - подмножество гласных символьных элементов;
Ψs - подмножество согласных символьных элементов;
Под i-ым слоговым фрагментом понимается композиция S(i) g(i, l).
23. The device according to p. 22, characterized in that the syntagma segmentation block for syllabic fragments is made implementing an iterative algorithm for solving equations
C (i) = S (i) g (i, l) C (i + l) , ∀g∈ψ g ,
with initial conditions C (o) = C,
where g (i, l) is the first occurrence of any symbolic element of the vowel g∈Ψ g in the word C (i) ;
C - syntagma, considered as a word in the alphabet;
Ψ = Ψ s ∪ Ψ g , Ψ q = Ψ 1 ∪ Ψ 2 ∪ Ψ 3 - a subset of vowel symbolic elements;
Ψ s is a subset of consonant symbolic elements;
By the i-th syllable fragment we mean the composition S (i) g (i, l) .
24. Устройство по п.22, отличающееся тем, что блок определения класса слогового фрагмента выполнен реализующим соответствующий алгоритм, в котором слоговые фрагменты разделены на классы в зависимости от коммуникативного типа синтагмы, степени выделенности гласного слога и от совпадения слога с мелодическим центром синтагмы, совпадающим с логическим ударением синтагмы, при этом для завершенности и двух типов незавершенности выделены девять классов слогов: безударные слоги, ударные слоги со степенью выделенности гласного, равной трем, не совпадающие с мелодическим центром, последний ударный слог, не совпадающий с мелодическим центром, мелодический центр для синтагм с типом завершенности соответственно со степенью выделенности гласного n=4 и n=3, мелодический центр соответственно для синтагм с первым и вторым типами незавершенности и степенью выделенности гласного соответственно n=3 и n=4, для синтагм с коммуникативным типом "общий вопрос" выделены четыре класса слогов, соответственно безударные и ударные слоги - не мелодические центры с n=3, последний ударный слог - не мелодический центр, мелодический центр со степенями выделенности гласного соответственно n=3 и n=4, а для синтагм с коммуникативным типом "частный вопрос" выделены два класса слогов - совпадающие и не совпадающие с мелодическим центром. 24. The device according to p. 22, characterized in that the unit for determining the class of the syllable fragment is implemented that implements the corresponding algorithm, in which syllable fragments are divided into classes depending on the communicative type of syntagma, the degree of emphasis on the vowel syllable, and on the coincidence of the syllable with the melodic center of the syntagma that matches with the logical emphasis of syntagma, while for completeness and two types of incompleteness, nine classes of syllables are distinguished: unstressed syllables, stressed syllables with a vowel degree of three, not coinciding with the melodic center, the last stressed syllable that does not coincide with the melodic center, the melodic center for syntagmas with the type of completeness, respectively, with the degree of vowel highlighting n = 4 and n = 3, the melodic center for syntagmas with the first and second types of incompleteness and the degree of vowel highlighting, respectively respectively n = 3 and n = 4, for syntagmas with the communicative type “general question” four classes of syllables are distinguished, respectively unstressed and stressed syllables are not melodic centers with n = 3, the last stressed syllable is not melodic a center, a melodic center with vowel degrees of emphasis n = 3 and n = 4, respectively, and for syntagmas with the communicative type "private question" two classes of syllables are distinguished - coinciding and not coinciding with the melodic center. 25. Устройство по п. 22, отличающееся тем, что блок определения параметров закона изменения частоты основного тона для сегментов слогов выполнен реализующим алгоритм, каждому символьному элементу - сегменту слога ставящий в соответствие его начальную (Fн) и конечную (Fк) мелодические характеристики, при этом принята линейная аппроксимация закона изменения частоты основного тона на интервале длительности каждого сегмента слога
F(t) = Fн+(t-tн)/(tк-tн)ΔF,t∈[tн,tк];
ΔF = Fк-Fн,
где [tн, tк] - интервал длительности i-го сегмента, значения Fн и Fк квантованы по шкале музыкальных тонов, их значения определяются классом слога, положением слога относительно границ синтагмы (первый, непервый, последний), классами слогов - левого и правого контекстов, количеством сегментов в слоге, типом символьного элемента (гласный - согласный), его положением относительно начала слога (первый - непервый) и заданы таблично на допустимом подмножестве векторного произведения (K ∪ {*})⊗K⊗(K ∪{*}), где K - множество классов слогов, * - знак, разделяющий ситагмы, кроме того, для глухих щелевых и глухих аффрикант, для глухой смычки и взрыва в глухих смычных, для сегментов вокализации и паузы вибрант F(t) = const = Fmin, где Fmin - минимум частотного диапазона основного тона диктора, для звонких смычных линейное изменение частоты основного тона соответствует фазе смычки, а для фазы взрыва F(t)=Fmin.
25. The device according to p. 22, characterized in that the unit for determining the parameters of the law of changing the frequency of the fundamental tone for syllable segments is implemented that implements an algorithm, each symbolic element - a syllable segment associating its initial (F n ) and final (F k ) melodic characteristics while a linear approximation of the law of changing the frequency of the fundamental tone on the interval of the duration of each segment of the syllable
F (t) = F n + (tt n ) / (t to -t n ) ΔF, t∈ [t n , t to ];
ΔF = F to -F n
where [t n , t k ] is the interval of duration of the ith segment, the values of F n and F k are quantized on the scale of musical tones, their values are determined by the class of the syllable, the position of the syllable relative to the boundaries of the syntagma (first, non-first, last), the classes of syllables - left and right contexts, the number of segments in a syllable, the type of symbolic element (vowel - consonant), its position relative to the beginning of the syllable (first - nonfirst) and are given tabular on a valid subset of the vector product (K ∪ {*}) ⊗K⊗ (K ∪ {*}), where K is the set of syllable classes, * is the sign, I share In addition, for the deaf slit and deaf afflicants, for the deaf bow and explosion in the deaf cushions, for the segments of vocalization and pause, the vibrant is F (t) = const = F min , where F min is the minimum of the frequency range of the main tone of the speaker, for Voiced sonic, a linear change in the frequency of the fundamental tone corresponds to the phase of the bow, and for the phase of the explosion F (t) = F min .
26. Устройство по п.3, отличающееся тем, что блок компиляции содержит последовательно соединенные блок выделения контекста, шифратор кода элемента компиляции, блок акустико-сегментной базы синтеза, блок изменения временных и частотных характеристик элементов компиляции и блок композиции. 26. The device according to claim 3, characterized in that the compilation unit comprises sequentially connected context allocation unit, a compiler element code encoder, an acoustic segment synthesis unit, a unit for changing the time and frequency characteristics of compilation elements, and a composition unit. 27. Устройство по п.26, отличающееся тем, что блок акустико-сегментной базы синтеза выполнен в виде блока базы данных, акустико-сегментная база синтеза содержит базовые элементы компиляции в виде оцифрованных сегментов естественной речевой волны фонемной размерности - аллофонов, являющихся акустически и перцептивно различимыми контекстными реализациями фонем, при этом с целью сокращения объема базы, определенного путем полного исчисления элементов компиляции данного типа для синтезируемого языка, обобщены тождественные контекстные влияния с учетом акустических рефлексов коартикуляционных процессов, для чего множество фонем Ψ синтезируемого языка разбито на дифференцированные по контекстному влиянию классы, для каждого из которых множества левых и правых контекстов разбиты на тождественные по влиянию для данного класса фонем классы соответственно левых и правых контекстов, при этом каждая фонема i-го класса ψ∈Ψ представлена в базе Ni = card(Li) card(Ri) реализациями, каждая из которых представляет собой реализацию ψi в контексте λjψiρk, где Li = ULi,j и Ri = URi, k - соответственно множества классов левых и правых контекстов для i-го класса фонем, классы фонем представлены классом гласных фонем и семью классами согласных фонем, классы согласных фонем включают соответственно звонкие и глухие смычные, твердые и мягкие фрикативные за исключением соответственно твердого и мягкого (х), носовые, плавные сонанты, включая твердые и мягкие (х) и (в), вибранты и йот, при этом класс носовых индифферентен к контекстному влиянию, классы звонких и глухих смычных индифферентны к левому контексту, а для правых контекстов выделено четыре класса - соответственно огубленные, конечные, мягкие и все остальные, для классов твердых и мягких фрикативных выделено два класса левых контекстов - начальные и все остальные, и те же классы правых контекстов, что и классы звонких и глухих смычных, для класса плавных сонант - четыре класса левых контекстов, соответственно огубленные, начальные, {и^, и, ы^, ы, э^, ь} и все остальные, и четыре класса правых контекстов, соответственно огубленные, конечные, любой контекст для мягких звуков и все остальные, класс вибрант включает твердую и мягкую фонемы (р) в интервокальной позиции, а для неинтервокальной позиции выделено четыре класса левых контекстов, соответственно {у^, у, о^, б, п, ф, в, л, м}, начальные, {и^, ы^, и, ь, э^ } и мягкие согласные, все остальные контексты, и четыре класса правых контекстов, соответственно первый класс, идентичный первому классу левого контекста, конечные, любой, кроме конечного, контекст для мягкого (р) и все остальные контексты, для класса йота выделено четыре класса левых контекстов, соответственно огубленные, начальные, {и^, ы^, и, ы, ь, э^} и все мягкие согласные, и все остальные контексты, и три класса правых контекстов, соответственно конечные, гласные и согласные, класс гласных фонем включает соответственно ударные фонемы {а^, у^, и^, ы^, э^, о^}, безударные фонемы первой степени редукции {а, у2, и, ы, э, о} и безударные фонемы второй степени редукции {ъ, ь, у1}, для гласных выделены десять классов левых контекстов, соответственно переднеязычный твердый, губной твердый, заднеязычный твердый, переднеязычный носовой, губной носовой, постальвеолярный твердый, мягкий неносовой, мягкий носовой переднеязычный, начальный и мягкий носовой губной, и восемь классов правых контекстов, соответственно переднеязычный твердый, губной твердый, постальвеолярный твердый, мягкие согласные, а также {и^, и, ь}, и конечные, под начальным и конечным контекстами понимаются соответственно паузы в начале и конце синтагмы.27. The device according to p. 26, wherein the block of the acoustic segment synthesis base is made in the form of a database block, the acoustic segment synthesis base contains basic compilation elements in the form of digitized segments of the natural phonemic speech wave — allophones that are acoustically and perceptually distinguishable contextual implementations of phonemes, while in order to reduce the volume of the base determined by the complete calculation of compilation elements of a given type for the synthesized language, identical contextual influences are generalized taking into account the acoustic reflexes of co-articulation processes, for which the set of phonemes Ψ of the synthesized language is divided into classes differentiated by contextual influence, for each of which the sets of left and right contexts are divided into classes of left and right contexts that are identical in influence for a given phoneme class, while each phoneme of the ith class ψ∈Ψ is represented in the base N i = card (L i ) card (R i ) by implementations, each of which is a realization ψ i in the context of λ j ψ i ρ k , where L i = UL i , j and R i = UR i, k are respectively but the sets of classes of left and right contexts for the ith class of phonemes, classes of phonemes are represented by a class of vowel phonemes and seven classes of consonant phonemes, classes of consonant phonemes include voiced and deaf connecting, hard and soft fricatives, respectively, except for hard and soft (x), nasal, flowing sonants, including hard and soft (x) and (c), vibrants and iota, while the class of nasal is indifferent to contextual influences, the classes of voiced and deaf cusps are indifferent to the left context, and for the right contexts h three classes of classes - respectively ruined, final, soft, and all the rest, for classes of hard and soft fricatives, two classes of left contexts are distinguished - the initial and all the rest, and the same classes of right contexts as the classes of voiced and deaf closed ones, for the class of smooth sonants - four classes of left contexts, respectively, ruined, initial, {and ^, and, s ^, s, e ^, b} and all the rest, and four classes of right contexts, respectively, ruined, final, any context for soft sounds and all the rest, vibrant class includes hard and soft phonemes (p) in the intervocal position, and for the non-intervocal position four classes of left contexts are distinguished, respectively {y ^, y, o ^, b, n, f, c, l, m}, initial, {u ^, s ^, and, b, e ^} and soft consonants, all other contexts, and four classes of right contexts, respectively, the first class is identical to the first class of the left context, finite, any, except the final, context for soft (p) and all other contexts, for of the iota class, four classes of left contexts are distinguished, respectively, ruined, initial, {and ^, s ^, and, s, b, e ^} and all soft consonants, and all other contexts, and three classes of right contexts, respectively final, vowels and consonants, the class of vowel phonemes respectively includes stressed phonemes {a ^, y ^, and ^, s ^, е ^, о ^}, unstressed phonemes of the first degree of reduction { a, y2, u, s, e, o} and unstressed phonemes of the second degree of reduction {b, b, y1}, ten classes of left contexts are distinguished for vowels, respectively anterior lingual solid, labial hard, posterior lingual solid, anterolingual nasal, labial nasal, postalveolar hard, soft nasal, soft nasal anterior lingual, nachal flaxen and soft nasal labial, and eight classes of right contexts, respectively, anterolingual hard, labial hard, postalveolar hard, soft consonants, as well as {and ^, and, b}, and final, with the initial and final contexts are understood as pauses at the beginning and end of syntagma. 28. Устройство по п. 26, отличающееся тем, что шифратор кода элемента компиляции выполнен реализующим алгоритм формирования кода элемента компиляции в виде кортежа <<Kф, Kk,ф, Kl, Kr>>, где Kф - код фонемы, Kk, ф - код класса фонемы, Kl - код класса левого контекста, Kr - код класса правого контекста.28. The device according to p. 26, characterized in that the compiler element code encoder is implemented implementing the compilation element code generation algorithm in the form of a tuple << K f , K k, f , K l , K r >>, where K f is the phoneme code , K k, f is the phoneme class code, K l is the left context class code, K r is the right context class code. 29. Устройство по п.3, отличающееся тем, что блок изменения временных и частотных характеристик элемента компиляции выполнен реализующим алгоритм функционального преобразования
Figure 00000019

где φ(t) - сегмент естественной речевой волны, соответствующий текущему элементу компиляции φi(t) - ортогональная последовательность функций, совпадающих с φ(t) на интервале i-го квазипериода, no - число квазипериодов в сегменте естественной речевой волны, n = max(2,[τ(F(tк)+F(tн)/2] - требуемое число квазипериодов, τ - требуемая длительность элемента компиляции, F(tн) и F(tк) - соответственно заданные начальное и конечное значения частоты основного тона, при этом
Figure 00000020
есть результат функционального преобразования φi(t), где индекс i для ∀j определяется областью истинности предиката
P(i)=(i=j^(n=novn>no^j≤[no/2]vn<no^j≤[n/2])v;
(i=j+no-n^n>no^j≥n-[no/2]vn<no^j≥[n/2])v;
(i=[no/2]^n>no^[n/2]<j^j<n-[no/2]),
а функциональное преобразование
Figure 00000021
определено следующим образом
Figure 00000022

Figure 00000023

где
Figure 00000024
- требуемая длительность j-го квазипериода.
29. The device according to claim 3, characterized in that the unit for changing the time and frequency characteristics of the compilation element is made implementing a functional transformation algorithm
Figure 00000019

where φ (t) is the segment of the natural speech wave corresponding to the current compilation element φ i (t) is the orthogonal sequence of functions coinciding with φ (t) on the interval of the i-th quasiperiod, n o is the number of quasiperiods in the segment of the natural speech wave, n = max (2, [τ (F (t to ) + F (t n ) / 2] is the required number of quasiperiods, τ is the required duration of the compilation element, F (t n ) and F (t to ) are the given initial and the final value of the frequency of the fundamental tone, while
Figure 00000020
is the result of the functional transformation φ i (t), where the index i for ∀j is determined by the truth domain of the predicate
P (i) = (i = j ^ (n = n o vn> n o ^ j≤ [n o / 2] vn <n o ^ j≤ [n / 2]) v;
(i = j + n o -n ^ n> n o ^ j≥n- [n o / 2] vn <n o ^ j≥ [n / 2]) v;
(i = [n o / 2] ^ n> n o ^ [n / 2] <j ^ j <n- [n o / 2]),
and functional transformation
Figure 00000021
defined as follows
Figure 00000022

Figure 00000023

Where
Figure 00000024
- the required duration of the j-th quasiperiod.
RU96115319A 1996-08-16 1996-08-16 Computer equipment for reading of printed text RU2113726C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU96115319A RU2113726C1 (en) 1996-08-16 1996-08-16 Computer equipment for reading of printed text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU96115319A RU2113726C1 (en) 1996-08-16 1996-08-16 Computer equipment for reading of printed text

Publications (2)

Publication Number Publication Date
RU2113726C1 true RU2113726C1 (en) 1998-06-20
RU96115319A RU96115319A (en) 1998-10-10

Family

ID=20183829

Family Applications (1)

Application Number Title Priority Date Filing Date
RU96115319A RU2113726C1 (en) 1996-08-16 1996-08-16 Computer equipment for reading of printed text

Country Status (1)

Country Link
RU (1) RU2113726C1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2460154C1 (en) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Method for automated text processing computer device realising said method
RU2640322C2 (en) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Methods and systems of effective automatic recognition of symbols

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP, выложенна я заявка, 06-012011, кл. G 06 K 9/00, 1994. JP, выложенная заявка, 06-1498 07, кл. G 10 L 3/00, 1994. *
Петров Ю.И. Обучение взрослых слепых письму и чтению по Брайлю. - М.: ВОС , 1988, стр.3-4. BAUM Products GmbH, INKA, Version 1.0, Manual, March 1994 . Сорокин В.Н. Синтез речи. - М.: Наука, 1992. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2460154C1 (en) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Method for automated text processing computer device realising said method
RU2640322C2 (en) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Methods and systems of effective automatic recognition of symbols

Similar Documents

Publication Publication Date Title
El-Imam Phonetization of Arabic: rules and algorithms
US6275789B1 (en) Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6490563B2 (en) Proofreading with text to speech feedback
Taylor Text-to-speech synthesis
US6879957B1 (en) Method for producing a speech rendition of text from diphone sounds
US6098042A (en) Homograph filter for speech synthesis system
JP5231698B2 (en) How to predict how to read Japanese ideograms
Aida–Zade et al. The main principles of text-to-speech synthesis system
RU2113726C1 (en) Computer equipment for reading of printed text
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
Doush et al. AraDaisy: A system for automatic generation of Arabic DAISY books
JP6998017B2 (en) Speech synthesis data generator, speech synthesis data generation method and speech synthesis system
Ngugi et al. Swahili text-to-speech system
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Anto et al. Text to speech synthesis system for English to Malayalam translation
Akmuradov et al. Organization of Initial Text Processing in the Uzbek Language Synthesizer
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Gibbon et al. Spoken Language Characterization
Portele et al. Adapting a TTS system to a reading machine for the blind
JP3029403B2 (en) Sentence data speech conversion system
JP2002123281A (en) Speech synthesizer
Nair et al. English to Indian Language and Back Transliteration with Phonetic Transcription for Computational Linguistics Tools based on Conventional Transliteration Schemes
JP2003005776A (en) Voice synthesizing device
JPH03245192A (en) Method for determining pronunciation of foreign language word
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20110817