RU2113726C1 - Computer equipment for reading of printed text - Google Patents
Computer equipment for reading of printed text Download PDFInfo
- Publication number
- RU2113726C1 RU2113726C1 RU96115319A RU96115319A RU2113726C1 RU 2113726 C1 RU2113726 C1 RU 2113726C1 RU 96115319 A RU96115319 A RU 96115319A RU 96115319 A RU96115319 A RU 96115319A RU 2113726 C1 RU2113726 C1 RU 2113726C1
- Authority
- RU
- Russia
- Prior art keywords
- block
- unit
- words
- text
- selector
- Prior art date
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
Изобретение относится к вычислительной технике и может использоваться в качестве источника информации для слепых и слабовидящих людей, а также в качестве средства для обучения русскому языку. The invention relates to computer technology and can be used as a source of information for blind and visually impaired people, and also as a means for teaching the Russian language.
Для людей, потерявших зрение или с отсутствием зрения, одной из важных проблем является задача самостоятельного получения информации, так как такие обычные источники информации, как книги, журналы и др. для них недоступны, специальная информация вообще отсутствует, а периодические источники информации из-за нерегулярного перевода становятся для них непериодическими. For people who have lost their sight or with a lack of vision, one of the important problems is the task of independently obtaining information, since such ordinary sources of information as books, magazines, etc. are not available to them, there is no special information at all, and periodic sources of information due to irregular transfers become non-periodic for them.
Известное средство для получения незрячими информации в виде печатной продукции с использованием рельефно-точечной системы Брайля [1] обладает определенными недостатками. Такие книги занимают большой объем из-за рельефной печати, легко повреждаются при хранении и при чтении из-за механического контакта, кроме того, номенклатура их минимальна по сравнению с обычной печатной продукцией, не говоря уже об оперативности получения информации. Наконец, число незрячих, владеющих системой Брайля, имеет тенденцию к сокращению. A well-known tool for obtaining blind information in the form of printed products using a braille-relief system [1] has certain disadvantages. Such books occupy a large volume due to embossed printing, are easily damaged during storage and when reading due to mechanical contact, in addition, their nomenclature is minimal compared to conventional printed products, not to mention the speed of obtaining information. Finally, the number of blind people who own a Braille system tends to decrease.
Другим известным средством для получения информации незрячими является так называемая "говорящая книга", представляющая собой магнитную ленту, на которую записаны тексты книг, журналов, газет и др. [2]. Another well-known means for obtaining information for the blind is the so-called "talking book", which is a magnetic tape on which the texts of books, magazines, newspapers, etc. are recorded [2].
Достоинствами такого средства является то, что при восприятии речевой информации человек меньше устает, быстрее реагирует, при этом скорость обмена информацией существенно выше, чем при тактильном способе. При несомненных достоинствах этого устройства обмена информацией его отличает низкая оперативность, из-за чего слабо удовлетворяются индивидуальные запросы незрячего пользователя, особенно в области, связанной с профессиональной деятельностью, поскольку имеется только массовая, широко используемая продукция и отсутствует специальная информация, при этом не отслеживается новейшая и последняя информация. The advantages of this tool is that when you perceive speech information, a person gets tired less, responds faster, and the speed of information exchange is much higher than with the tactile method. With the undoubted advantages of this information exchange device, it is distinguished by low efficiency, which is why the individual requests of a blind user are poorly satisfied, especially in the field of professional activity, since there are only mass, widely used products and there is no special information, while the latest and latest information.
Наиболее близким к изобретению является устройство, использующее персональный компьютер с оптико-механическим блоком чтения плоско-печатного текста и программируемым синтезатором речи [3]. Closest to the invention is a device using a personal computer with an optical-mechanical block for reading flat-printed text and a programmable speech synthesizer [3].
Можно отметить довольно высокую натуральность и разборчивость синтезированной речи на уровне отдельных слов и значительное ухудшение этих показателей при синтезе слитной речи, когда возникают заметные паразитные звуковые эффекты. Кроме того, синтез осуществляется по строкам текста, а при таком подходе невозможно адекватно сформировать мелодический контур, поскольку он определяет интонацию фраз и синтагм, а строка прозаического текста содержит фрагменты одной или нескольких синтагм, т.е. синтезированная речь звучит "механически". One can note a rather high naturalness and intelligibility of synthesized speech at the level of individual words and a significant deterioration of these indicators in the synthesis of continuous speech, when there are noticeable spurious sound effects. In addition, synthesis is carried out along lines of text, and with this approach it is impossible to adequately form a melodic contour, since it determines the intonation of phrases and syntagmas, and a line of prosaic text contains fragments of one or more syntagmas, i.e. synthesized speech sounds “mechanically”.
Независимо от качества иноязычные синтезаторы речи для чтения русскоязычных текстов непригодны. При синтезе речи на русском языке возникает много проблем, которые связаны со сложностью грамматики и фонетики русского языка, происходящего от кириллицы, и являются самыми сложными в мировой практике, так как требуют учета очень большого количества факторов, как ни в одном другом языке. Имевшие место до настоящего времени попытки создания таких устройств не решили данную задачу, так как эти устройства не удовлетворяли требованиям по качеству воспринимаемого сигнала, и все созданные варианты были отвергнуты потенциальными пользователями-слепыми. Regardless of the quality, foreign-language speech synthesizers are unsuitable for reading Russian-language texts. When synthesizing speech in Russian, many problems arise that are associated with the complexity of the grammar and phonetics of the Russian language, derived from the Cyrillic alphabet, and are the most difficult in world practice, since they require taking into account a very large number of factors, like in no other language. To date, attempts to create such devices have not solved this problem, since these devices did not meet the requirements for the quality of the perceived signal, and all created options were rejected by potential blind users.
Технической задачей изобретения является разработка компьютерного устройства для чтения плоскопечатного текста: осуществляющего считывание и звуковое воспроизведение печатного текста в реальном масштабе времени с высоким качеством синтезированной русской "славянской" речи за счет обеспечения ее натуральности и разборчивости фонемной, слоговой и словесной. An object of the invention is the development of a computer device for reading flat-printed text: reading and sound reproduction of printed text in real time with high quality synthesized Russian "Slavic" speech by ensuring its naturalness and intelligibility of the phoneme, syllable and verbal.
Поставленная задача решается в устройстве для чтения плоскопечатного текста, содержащем последовательно соединенные блок оптического ввода плоскопечатного текста и блок оптического распознавания текста, блок синтеза речи по орфографическому тексту, блок формирования аудиосигнала и оконечный блок, в котором согласно изобретению блок оптического ввода плоскопечатного текста выполнен в виде сканера, блок формирования аудиосигнала выполнен в виде звуковой платы, блок синтеза речи по орфографическому тексту выполнен в виде блока синтеза русской речи по орфографическому тексту, а также дополнительно введены блок унификации текстового файла, блок текстовой базы данных, тактильный дисплей, блок сопряжения тактильного дисплея с персональным компьютером и блок интерфейса, при этом выход блока оптического распознавания текста через последовательно соединенные блок унификации текстового файла и блок текстовой базы данных соединен с информационным входом блока синтеза речи по орфографическому тексту, а через блок сопряжения - с входом тактильного дисплея, выход блока синтеза русской речи по орфографическому тексту через звуковую плату соединен с оконечным аудиоблоком, управляющие входы блоков сопряжения тактильного дисплея и сканера, блок оптического распознавания текста, блок унификации текстового файла, блока синтеза русской речи по орфографическому тексту и блока текстовой базы данных соединены с соответствующими выходами блока интерфейса. The problem is solved in a device for reading flat-typed text, containing a series-connected optical input unit for flat-printed text and an optical text recognition unit, a speech synthesis unit for spelling text, an audio signal generating unit and a terminal unit, in which, according to the invention, an optical input unit for flat-printed text is made in the form scanner, the audio signal generating unit is made in the form of a sound card, the speech synthesis unit for spelling text is made in the form of a synthesizer in Russian speech in spelling text, as well as additionally introduced a text file unification unit, a text database unit, a tactile display, a tactile display interface to a personal computer and an interface unit, the output of the optical text recognition unit through a series-connected text file unification unit and the text database block is connected to the information input of the speech synthesis block according to the spelling text, and through the pairing block, to the input of the tactile display, the output of the sync block A spelling of Russian speech in spelling text is connected through a sound card to a terminal audio block, control inputs of the interface units of a tactile display and scanner, an optical text recognition unit, a text file unification unit, a block for synthesizing Russian speech from spelling text, and a text database block are connected to the corresponding outputs of the block interface.
При этом блок унификации текстового файла может быть выполнен в виде последовательно соединенных блока распознавания многоколоночного текста, блока переформатирования текстового файла в одноколоночный, блока распознавания левых и правых границ текста, блока распознавания красных строк, блока выделения абзацев, блока исключения символов метаязыка, не входящих в допустимый алфавит, блока ликвидации переносов слов и блока переформатирования текстового файла. At the same time, the unit of unification of the text file can be made in the form of series-connected recognition blocks for multi-column text, blocks for reformatting a text file into one columns, a block for recognizing left and right borders of a text, a block for recognizing red lines, a block for selecting paragraphs, a block for excluding metalanguage characters that are not included in valid alphabet, word wrap block, and text file reformat block.
Блок синтеза русской речи по орфографическому тексту может быть выполнен в виде блока компиляционного синтеза речи и содержащего последовательно соединенные блок выбора текущего абзаца, блок чтения текущего абзаца, блок предварительного синтаксического анализа абзаца, блок выделения слов в абзаце, селектор подслов на подмножествах алфавита метаязыка, блок распознавания слов на русском алфавите, первый блок ИЛИ, блок контекстной расшифровки сокращений слов, блок согласования, блок выделения фраз и синтагм, блок определения коммуникативного типа фраз и синтагм, блок определения логического ударения, блок фонетического транскрибирования текста, временной процессор, мелодический процессор, блок компиляции, блок формирования звукового файла и блок вывода звукового файла. The block for synthesizing Russian speech from a spelling text can be made in the form of a block for compiling speech synthesis and containing a series-connected block for selecting the current paragraph, a block for reading the current paragraph, a block for preliminary parsing of the paragraph, a block for selecting words in a paragraph, a subword selector on subsets of the metalanguage alphabet, a block recognition of words in the Russian alphabet, the first block OR, block contextual decryption of abbreviations of words, block matching, block selection of phrases and syntagm, block definitions of communication vnogo type phrases and syntagmas determining unit logical stress, phonetic transcription unit of text, the time processor melodic processor compilation unit, forming unit, and an audio file output unit of the sound file.
Блок предварительного синтаксического анализа абзаца может содержать последовательно соединенные селектор знаков пунктуации, коммутатор, блок вербализации знаков пунктуации и второй блок ИЛИ, при этом второй выход коммутатора через последовательно соединенные блок контекстного анализа пунктуационных знаков, блок устранения ненаходящих отражения в устной речи пунктуационных знаков, блок устранения графических пунктуационных фикций и блок вербализации знаков точки, запятой и тире в записи чисел подключен к второму входу второго блока ИЛИ, а управляющие вход коммутатора является управляющим входом блока предварительного синтаксического анализа. The block of preliminary parsing of the paragraph may contain sequentially connected punctuation mark selector, a switch, a punctuation mark verbalization block and a second OR block, while the second output of the switch through sequentially connected punctuation mark context analysis block, a punctuation mark elimination block for spoken words, a elimination block graphic punctuation fictions and the block of verbalization of the signs of a point, comma and dash in the record of numbers is connected to the second input of the second block OR, and the control input of the switch is the control input of the preliminary parsing unit.
Блок распознавания слов на русском алфавите содержит последовательно соединенные блок преобразования символьных кодов к одному регистру, селектор слов, включающих пунктуационные знаки, первый селектор слов-сокращений и третий блок ИЛИ, второй выход первого селектора слов-сокращений через последовательно соединенные четвертый блок ИЛИ, блок морфологического анализа, блок восстановления графемы "йо", селектор аббревиатур и блок расшифровки аббревиатур подключен к второму входу третьего блока ИЛИ, второй выход селектора аббревиатур через последовательно соединенные блок определения части речи и блок расстановки ударений подключен к третьему входу третьего блока ИЛИ, второй выход селектора слов, включающих пунктуационные знаки, через второй селектор слов-сокращений подключен к четвертому входу третьего блока ИЛИ, второй выход второго селектора слов-сокращений через блок исключения дефиса подключен к второму входу четвертого блока ИЛИ, третий выход селектора слов, включающих пунктуационные знаки, через блок исключения апострофа подключен к третьему входу четвертого блока ИЛИ, четвертый вход которого соединен с четвертым выходом селектора слов, содержащих пунктуационные знаки, выход третьего блока ИЛИ является выходом блока распознавания слов на русском алфавите. The block for recognizing words in the Russian alphabet contains a series-connected block for converting symbol codes to one register, a selector for words including punctuation characters, a first word-abbreviation selector and a third OR block, a second output of the first word-abbreviation selector through a fourth OR block connected in series, a morphological block analysis, grapheme recovery unit "yo", abbreviation selector and abbreviation decryption unit connected to the second input of the third OR block, the second output of the abbreviation selector Without a serially connected unit for determining a part of speech and an accentuation unit is connected to the third input of the third OR block, the second output of the word selector including punctuation marks, through the second selector of abbreviations is connected to the fourth input of the third OR unit, the second output of the second selector of abbreviations the hyphen exclusion block is connected to the second input of the fourth OR block, the third output of the word selector including punctuation characters, through the apostrophe exclusion block is connected to the third input of the fourth OR unit, a fourth input coupled to a fourth output selector words containing punctuation marks, the third block is the output of OR output word recognition unit to the Russian alphabet.
Блок морфологического анализа содержит блоки памяти для префиксов, основ и флексий, реализованные в виде соответствующей базы данных, при этом блок морфологического анализа выполнен реализующим алгоритм решения соответствующего уравнения. The morphological analysis block contains memory blocks for prefixes, foundations, and inflections, implemented in the form of a corresponding database, while the morphological analysis block is implemented that implements an algorithm for solving the corresponding equation.
Блок расстановки ударений содержит последовательно соединенные селектор распознанных слов, блок определения ударного слога и пятый блок ИЛИ. The stress arrangement unit contains a successively connected selector of recognized words, a stressed syllable definition unit, and a fifth OR block.
Блок трансляции слов метаязыка в слова на русском алфавите содержит последовательно соединенные селектор подмножеств алфавита метаязыка, шестой блок ИЛИ, блок вербализации арабской цифровой записи чисел и седьмой блок ИЛИ, второй выход селектора подмножеств алфавита метаязыка через последовательно соединенные селектор латинских цифр и блок преобразования латинской записи чисел в арабскую соединен с вторым входом шестого блока ИЛИ, второй выход блока преобразования латинской записи чисел в арабскую через последовательно соединенные восьмой блок ИЛИ и блок русификации слов латинского алфавита соединен с вторым входом седьмого блока ИЛИ, второй выход селектора латинских цифр соединен с вторым входом восьмого блока ИЛИ, третий вход которого соединен с третьим выходом селектора подмножеств алфавита метаязыка, четвертый выход которого через блок вербализации знаков алфавита метаязыка соединен с третьим входом седьмого блока ИЛИ, выход которого является выходом блока трансляции слов метаязыка в слова русского алфавита. The translation unit of metalanguage words into words in the Russian alphabet contains a sequentially connected selector of subsets of the alphabet of the metalanguage, the sixth block OR, the verbalization block of the Arabic digital notation of numbers and the seventh block OR, the second output of the selector of the subsets of the alphabet of the metalanguage through the sequentially connected selector of Latin digits and the conversion unit of Latin numbers in Arabic is connected to the second input of the sixth block OR, the second output of the block for converting Latin numbers into Arabic through series-connected the eighth OR block and the Russification block of Latin alphabet words is connected to the second input of the seventh OR block, the second output of the Latin digit selector is connected to the second input of the eighth OR block, the third input of which is connected to the third output of the metalanguage subset selector, the fourth output of which is through the verbalization block of alphabet characters metalanguage is connected to the third input of the seventh OR block, the output of which is the output of the translation unit of metalanguage words into words of the Russian alphabet.
Блок выделения фаз и синтагм выполнен реализующим алгоритм выделения фраз путем разбиения абзаца на лексемы, отделенные символами {.?} и алгоритм выделения синтагм во фразах путем разбиения фразы на лексемы, отделенные символами {,:;-}. The phase and syntagma selection block is implemented that implements the phrase extraction algorithm by breaking the paragraph into lexemes separated by {.?} And the syntax highlighting algorithm in phrases by breaking the phrase into lexemes separated by {,:; -}.
Блок определения коммуникативного типа фраз и синтагм содержит последовательно соединенные селектор вопросительных фраз, блок определения синтагмы, содержащей вопрос, девятый блок ИЛИ и блок определения коммуникативного типа синтагм, второй выход селектора вопросительных фраз соединен со вторым входом девятого блока ИЛИ. The communicative type definition block for phrases and syntagms contains a sequentially connected question selector phraser, the syntagma definition block containing a question, the ninth OR block and the communicative type determination syntagm block, the second output of the interrogative phrase selector is connected to the second input of the ninth OR block.
Блок определения коммуникативного типа синтагмы выполнен реализующим алгоритм определения следующих коммуникативных типов: завершенность, соответствующая синтагмам, завершающимся знакам { .:;}, первый и второй типы незавершенности, соответствующие синтагмам, завершающимся соответственно знаками {,-}, общий и частный вопросы для синтагм, завершающихся знаком {?} и соответственно не содержащих или содержащих вопросительное слово, а также синтагмы с акцентом, содержащие знак логического выделения на выделяемом слове. The unit for determining the communicative type of syntagma is implemented that implements an algorithm for determining the following communicative types: completeness corresponding to syntagms ending with signs {.:;}, First and second types of incompleteness corresponding to syntagms ending with respectively signs {, -}, general and particular questions for syntagms, ending with a {?} and correspondingly not containing or containing a question word, as well as accent syntagmas containing a logical highlight sign on the highlighted word.
Блок определения логического ударения содержит последовательно соединенные селектор логически выделенных слов и десятый блок ИЛИ, второй выход селектора логически выделенных слов через последовательно соединенные селектор слов, содержащих частный вопрос, и одиннадцатый блок ИЛИ подключен к второму входу десятого блока ИЛИ, второй выход селектора слов, содержащих частный вопрос, через селектор семантически значимых слов подключен к второму входу одиннадцатого блока ИЛИ, а второй выход селектора семантически значимых слов через блок определения последнего знаменательного слова синтагмы подключен к третьему входу одиннадцатого блока ИЛИ, выход десятого блока ИЛИ является выходом блока определения логического ударения. The logical stress determination unit contains a sequentially connected selector of logically distinguished words and a tenth OR block, a second output of a selector of logically distinguished words through a series-connected word selector containing a particular question, and the eleventh OR block is connected to the second input of the tenth OR block, the second output of a word selector containing a particular question, through the selector of semantically significant words connected to the second input of the eleventh block OR, and the second output of the selector of semantically significant words through the block EFINITIONS last notional word syntagm is connected to the third input of the OR block eleventh, tenth block output is the output of OR logical stress determination unit.
Блок фонетического транскрибирования текста содержит последовательно соединенные блок устранения орфографических фикций, блок преобразования буквенной записи в фонетическую и блок формирования слитной речи. The phonetic transcription block of the text contains a series-connected block for eliminating spelling fictions, a block for converting letter recording into phonetic, and a unit for forming continuous speech.
Блок устранения орфографических фикций содержит последовательно соединенные блок устранения орфографических фикций в окончаниях слов, блок исключения непроизносимых согласных, блок замены сочетаний согласных эквивалентной буквенной записью и блок преобразования записи слов с твердым произношением "е". The spelling fiction elimination unit comprises a spelling fiction elimination unit at the word ends, an unpronounceable consonant elimination unit, a consonant change replacement unit with an equivalent alphabetic entry, and a word recording unit with a hard pronunciation “e”.
Блок преобразования буквенной записи в фонетическую содержит последовательно соединенные селектор служебных слов, блок ликвидации ударений в служебных словах, блок ассимиляции служебных слов, двенадцатый блок ИЛИ, блок транскрибирования контекстов с мягким знаком, блок транскрибирования контекстов с твердым знаком, блок определения мягкости согласных перед маркированными гласными, блок транскрибирования йотированных гласных в начале синтагмы, блок транскрибирования йотированных гласных в позиции после гласной, блок транскрибирования непарных мягких согласных, блок определения звонкости-глухости согласных в сочетаниях согласных, блок оглушения шумных звонких согласных в конце синтагмы, блок ассимиляции твердых согласных перед мягкими, блок транскрибирования двойных согласных, селектор слабоударных слов, блок определения степени редукции гласных в словах с ударением, блок замены гласных первой степени редукции, тринадцатый блок ИЛИ и блок замены гласных второй степени редукции, второй выход селектора служебных слов через блок замены ударений в слабоударных словах соединен со вторым входом двенадцатого блока ИЛИ, а третий выход - с третьим входом двенадцатого блока ИЛИ, второй выход селектора слабоударных слов через блок определения степени редукции в слабоударных словах соединен со вторым входом тринадцатого блока ИЛИ. The block for converting an alphabetic entry into a phonetic one contains a serially connected selector of service words, a unit for eliminating stresses in service words, a unit for assimilating service words, a twelfth OR block, a block for transcribing contexts with a soft sign, a block for transcribing contexts with a hard sign, a block for determining the softness of consonants in front of marked vowels , block of transcription of iotated vowels at the beginning of the syntagma, block of transcription of iotated vowels in the position after the vowel, block of transcription unpaired soft consonants, a unit for determining voiced-deafness of consonants in combinations of consonants, a unit for stunning noisy voiced consonants at the end of a syntagm, a unit for assimilating hard consonants to soft ones, a unit for transcribing double consonants, a selector for weakly stressed words, a unit for determining the degree of reduction of vowels in accented words, unit for replacing vowels of the first degree of reduction, the thirteenth block OR and unit of replacing vowels of the second degree of reduction, second output of the service word selector through the unit for replacing stresses in weakly stressed words vah is connected to the second input of the twelfth OR block and the third output - to the third input unit of the twelfth or the second output selector slaboudarnyh words through the block determining the degree of reduction in slaboudarnyh words is coupled to a second input of the thirteenth OR block.
Блок формирования слитной речи выполнен реализующим соответствующий алгоритм. The unit for the formation of continuous speech is made implementing the corresponding algorithm.
Блок определения степени редукции гласных выполнен реализующим алгоритм, в котором первая степень редукции, или вторая степень выделенности соответствует гласным в позициях первого предударного слога, в безударных позициях в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога и позиции после гласной, а вторая степень редукции, или первая степень выделенности - гласным во всех остальных безударных позициях, третья степень выделенности соответствует гласным в ударных позициях кроме последнего ударного слога синтагмы, гласному которого соответствует четвертая степень выделенности. The unit for determining the degree of reduction of vowels is implemented by implementing an algorithm in which the first degree of reduction or the second degree of emphasis corresponds to vowels in the positions of the first pre-stressed syllable, in unstressed positions at the end of the syntagma, in the open end of the word, if the next word begins with the stressed syllable and the position after the vowel , and the second degree of reduction, or the first degree of highlighting - to the vowel in all other unstressed positions, the third degree of highlighting corresponds to the vowels in the stressed positions except the last stressed a syllable of a syntagma, the vowels of which corresponds to the fourth power of selection.
Блок замены гласных первой степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных первой степени редукции путем соответствующих подстановок. The unit for replacing vowels of the first degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the first degree of reduction by appropriate substitutions.
Блок определения степени редукции гласных в слабоударных словах выполнен реализующим алгоритм редуцирования псевдоударного гласного в слабоударных словах до первой степени редукции. The unit for determining the degree of reduction of vowels in weakly stressed words is implemented that implements the algorithm for reducing a pseudo-stressed vowel in weakly stressed words to the first degree of reduction.
Блок замены гласных второй степени редукции выполнен реализующим алгоритм контекстной замены редуцированных безударных гласных второй степени редукции путем соответствующих подстановок. The unit for replacing vowels of the second degree of reduction is implemented that implements an algorithm for contextually replacing reduced unstressed vowels of the second degree of reduction by appropriate substitutions.
Временной процессор выполнен реализующим алгоритм, ставящий каждому символьному элементу фонетической записи в соответствие временной интервал, определяющий длительность соответствующего звука элемента компиляции, при этом гласные разбиты на три класса, отражающие различия в их фонетическом качестве. The time processor is implemented implementing an algorithm that sets each symbolic element of the phonetic record in accordance with a time interval that determines the duration of the corresponding sound of the compilation element, while the vowels are divided into three classes, reflecting differences in their phonetic quality.
Мелодический процессор содержит последовательно соединенные блок сегментирования синтагмы на слоговые фрагменты, блок определения класса слогового фрагмента и блок определения параметров закона изменения частоты основного тона для сегментов слогов. The melodic processor contains sequentially connected syntagma segmentation unit for syllabic fragments, a class unit for determining a syllable fragment and a unit for determining the parameters of the law of changing the frequency of the fundamental tone for syllable segments.
Блок сегментирования синтагмы на слоговые фрагменты выполнен реализующим итерационный алгоритм решения соответствующих уравнений. The syntagma segmentation block for syllabic fragments is implemented implementing an iterative algorithm for solving the corresponding equations.
Блок определения класса слогового фрагмента выполнен реализующим соответствующий алгоритм, в котором слоговые фрагменты разделены на классы в зависимости от коммуникативного типа синтагмы, степени выделенности гласного слога и от совпадения слога с мелодическим центром синтагмы, совпадающим с логическим ударением синтагмы, при этом для завершенности и двух типов незавершенности выделены девять классов слогов: безударные слоги, ударные слоги со степенью выделенности гласного, равной трем, не совпадающие с мелодическим центром, последний ударный слог, не совпадающий с мелодическим центром, мелодический центр для синтагм с типом завершенности соответственно со степенью выделенности гласного n=4 и n=3, мелодический центр соответственно для синтагм с первым и вторым типами незавершенности и степенью выделенности гласного соответственно n= 3 и n= 4, для синтагм с коммуникативным типом "общий вопрос" выделены четыре класса слогов, соответственно безударные и ударные слоги - не мелодические центры с n=3, последний ударный слог - не мелодический центр, мелодический центр со степенями выделенности гласного соответственно n= 3 и n=4, а для синтагм с коммуникативным типом "частный вопрос" выделены два класса слогов - совпадающие и не совпадающие с мелодическим центром. The unit for determining the class of a syllable fragment is implemented that implements the corresponding algorithm, in which syllable fragments are divided into classes depending on the communicative type of syntagma, the degree of emphasis of the vowel syllable, and on the coincidence of the syllable with the melodic center of the syntagma, which coincides with the logical stress of the syntagma, while for completeness and two types nine classes of syllables are distinguished: incomplete syllables, stressed syllables with a vowel degree of three equal to those that do not coincide with the melodic center, after a stressed syllable that does not coincide with the melodic center, the melodic center for syntagmas with the type of completeness respectively with the degree of vowel highlighting n = 4 and n = 3, the melodic center for syntagmas with the first and second types of incompleteness and the degree of vowel highlighting respectively n = 3 and n = 4, for syntagmas with the communicative type “general question” four classes of syllables are distinguished, respectively unstressed and stressed syllables are not melodic centers with n = 3, the last stressed syllable is not a melodic center, melodic center with degree E saliency vowel respectively n = 3 and n = 4, and for syntagmas communicative type "special issue" isolated syllables two classes - coincide and not coincide with the center of the melody.
Блок определения параметров закона изменения частоты основного тона для сегментов слогов выполнен реализующим соответствующий алгоритм. The unit for determining the parameters of the law of changing the frequency of the fundamental tone for segments of syllables is made implementing the corresponding algorithm.
Блок компиляции содержит последовательно соединенные блок выделения контекста, шифратор кода элемента компиляции, блок акустико-сегментной базы синтеза, блок изменения временных и частотных характеристик элементов компиляции и блок композиции. The compilation unit contains a sequentially connected context extraction unit, a compiler element code encoder, an acoustic segment synthesis unit, a time and frequency response unit for compilation elements, and a composition unit.
Блок акустико-сегментной базы синтеза выполнен в виде блока базы данных, акустико-сегментная база синтеза содержит базовые элементы компиляции в виде оцифрованных сегментов естественной речевой волны фонемной размерности - аллофонов, являющихся акустически и перцептивно различимыми контекстными реализациями фонем. The block of the acoustic segment synthesis base is made in the form of a database block, the acoustic segment synthesis base contains the basic compilation elements in the form of digitized segments of the natural phonemic speech wave — allophones, which are acoustically and perceptually distinguishable contextual implementations of phonemes.
Шифратор кода элемента компиляции выполнен реализующим алгоритм формирования кода элемента компиляции. The compiler element code encoder is implemented implementing the compilation element code generation algorithm.
Блок изменения временных и частотных характеристик элемента компиляции выполнен реализующим алгоритм соответствующего функционального преобразования. The unit for changing the time and frequency characteristics of the compilation element is implemented implementing the algorithm of the corresponding functional transformation.
Выполнение компьютерного устройства чтения плоскопечатного текста в виде последовательно соединенных блока оптического ввода плоскопечатного текста, выполненного в виде сканера, и блока оптического распознавания текста, блока компиляционного синтеза речи по орфографическому тексту, блока формирования аудиосигнала в виде звуковой платы, и оконечного сигнала, а также содержащим блок текстовой базы данных, тактильного дисплея, блока сопряжения тактильного дисплея с персональным компьютером и блока интерфейса и соответствующих связей между ними позволяет осуществлять считывание и звуковое воспроизведение с высоким качеством синтезированной речи текста, выполненного любым печатным шрифтом на русском языке. The implementation of a computer device for reading flat-printed text in the form of a series-connected optical input unit for flat-printed text, made in the form of a scanner, and an optical text recognition unit, a compilation unit for synthesizing speech from spelling text, an audio signal generating unit in the form of a sound card, and an end signal, as well as containing a text database unit, a tactile display, a tactile display interface unit with a personal computer, and an interface unit and associated connections between them allows reading and sound reproduction with high quality synthesized speech of the text made in any printed font in Russian.
Предложенное выполнение блока унификации текстового файла, блока синтеза русской речи по орфографическому тексту, блока предварительного синтаксического анализа абзаца, блока распознавания слов на русском алфавите, блока морфологического анализа, блока расстановки ударений, блока трансляции слов метаязыка в слова на русском алфавите, блока выделения фраз и синтагм, блока определения коммуникативного типа фраз и синтагм, блока определения коммуникативного типа синтагм, блока определения логического ударения, блока фонетического транскрибирования текста, блока устранения орфографических фикций, блока преобразования буквенной записи в фонетическую, блока формирования слитной речи, блока определения степени редукции гласных, блока замены гласных первой степени редукции, блока определения степени редукции гласных в слабоударных словах, блока замены гласных второй степени редукции, временного процессора, мелодического процессора, блока сегментирования синтагмы на слоговые фрагменты, блока определения класса слогового фрагмента, блока компиляции блока акустико-сегментной базы синтеза, шифратора кода элемента компиляции, а также блока изменения временных и частотных характеристик элемента компиляции позволяет повысить качество звукового воспроизведения синтезированной русской речи за счет обеспечения соответственно ее фонемной, слоговой и словесной разборчивости, а также ее натуральности. The proposed implementation of a unit for unifying a text file, a unit for synthesizing Russian speech from a spelling text, a unit for preliminary parsing of a paragraph, a unit for recognizing words in the Russian alphabet, a unit for morphological analysis, an unit for placing stress, a unit for translating metalanguage words into words in the Russian alphabet, a unit for selecting phrases and syntagm, block for determining the communicative type of phrases and syntagm, block for determining the communicative type of syntagm, block for determining logical stress, phonetic block text scribing, spelling removal unit, letter to phonetic conversion unit, unit speech formation unit, vowel reduction degree determination unit, vowel replacement degree determination unit, vowel reduction degree determination unit in weakly pronounced words, vowel replacement unit of the second reduction degree, temporary processor, melodic processor, syntagma segmentation block for syllabic fragments, syllabic fragment class definition block, acoustic-comp block compilation unit synthesis-element basis, the encoder element compilation code and the changes block of time and frequency characteristics compilation element allows to increase the quality of sound reproduction Russian synthesized speech by providing respectively its phoneme, syllable verbal and intelligibility and naturalness it.
На фиг. 1-14 приведены структурные электрические схемы следующих устройств и блоков: на фиг. 1 - компьютерного устройства для считывания плоскопечатного текста; на фиг. 2 - блока унификации текстового файла; на фиг. 3 - блока синтеза русской речи по орфографическому тексту; на фиг. 4 - блока предварительного синтаксического анализа абзаца; на фиг. 5 - блока распознавания слов на русском алфавите; на фиг. 6 - блока расстановки ударений; на фиг. 7 - блока трансляции слов метаязыка в слова на русском алфавите; на фиг. 8 - блока определения коммуникативного типа фраз и синтагм; на фиг. 9 - блока определения логического ударения; на фиг. 10 - блока фонетического транскрибирования текста; на фиг. 11 - блока устранения орфографических фикций; на фиг. 12 - блока преобразования буквенной записи в фонетическую; на фиг. 13 - блока мелодического процессора; на фиг. 14 - блока компиляции. In FIG. 1-14 are structural electrical diagrams of the following devices and blocks: in FIG. 1 - a computer device for reading flat-printed text; in FIG. 2 - block unification of a text file; in FIG. 3 - block synthesis of Russian speech according to the spelling text; in FIG. 4 - block preliminary parsing of the paragraph; in FIG. 5 - block recognition of words in the Russian alphabet; in FIG. 6 - stress placement unit; in FIG. 7 - block translation of metalanguage words into words in the Russian alphabet; in FIG. 8 - block definition of a communicative type of phrases and syntagmas; in FIG. 9 - logical stress determination unit; in FIG. 10 - block phonetic transcription of the text; in FIG. 11 - block elimination of spelling fiction; in FIG. 12 - block conversion of letter recording into phonetic; in FIG. 13 - block melodic processor; in FIG. 14 - compilation unit.
Устройство (фиг. 1) содержит блок 1 оптического ввода плоскопечатного текста, блок 2 оптического распознавания текста, блок 3 унификации текстового файла, блок 4 текстовой базы данных и блок 5 синтеза русской речи по орфографическому тексту, оконечный аудиоблок 6, блок 7 сопряжения, тактильный дисплей 8 и блок 9 интерфейса. The device (Fig. 1) contains a block 1 for optical input of flat-printed text, a block 2 for optical text recognition, a
Блок 3 унификации текстового файла (фиг.2) содержит блок 10 распознавания многоколоночного текста, блок 11 переформатирования текстового файла в одноколоночный, блок 12 распознавания левых и правых границ текста, блок 13 распознавания красных строк, блок 14 выделения абзацев, блок 15 исключения символов метаязыка, не входящих в допустимый алфавит, блок 16 ликвидации переносов слов и блок 17 переформатирования текстового файла.
Блок 5 синтеза русской речи по орфографическому тексту (фиг.3) включает блок 18 выбора текущего абзаца, блок 19 чтения текущего абзаца, блок 20 предварительного синтаксического анализа абзаца, блок 21 выделения слов в абзаце, селектор 22 ъподслов на подмножествах алфавита метаязыка, блок 23 распознавания слов на русском алфавите, блок 24 трансляции слов метаязыка в слова на русском алфавите, первый блок ИЛИ 25, блок 26 контекстной расшифровки сокращений слов, блок 27 согласования, блок 28 выделения фраз и синтагм, блок 29 определения коммуникативного типа фраз и синтагм, блок 30 определения логического ударения в синтагмах, блок 31 фонетического транскрибирования текста, временной процессор 32, мелодический процессор 33, блок 34 компиляции, блок 35 формирования звукового файла и блок 36 вывода звукового файла. Block 5 of the synthesis of Russian speech according to the orthographic text (Fig. 3) includes a
Блок 20 предварительного синтаксического анализа абзаца (фиг.4) содержит селектор 37 знаков пунктуации, коммутатор 38, блок 39 вербализации знаков пунктуации, второй блок ИЛИ 40, блок 41 контекстного анализа пунктуационных знаков, блок 42 устранения пунктуационных фикций, селектор 43 пунктуационных знаков в записи чисел и блок 44 вербализации пунктуационных знаков в записи чисел.
Блок 23 распознавания слов на русском алфавите (фиг.5) включает блок 45 преобразования кодов прописных графем, селектор 46 слов, включающих пунктуационные знаки, первый селектор 47 словосокращений, третий блок ИЛИ 48, четвертый блок ИЛИ 49, блок 50 морфологического анализа, блок 51 восстановления графемы "йо", селектор 52 аббревиатур, блок 53 трансляции аббревиатур, блок 54 определения части речи, блок 55 расстановки ударений, второй селектор 56 слов-сокращений, блок 57 исключения дефиса и блок 58 исключения апострофа.
Блок 55 расстановки ударений (фиг.6) содержит селектор 59 распознанных слов, блок 60 определения ударного слога, пятый блок ИЛИ 61 и блок 62 определения ударного слога по эмпирическим правилам.
Блок 24 трансляции слов метаязыка в слова на русском алфавите (фиг.7) включает селектор 63 подмножеств алфавита метаязыка, шестой блок ИЛИ 64, блок 65 вербализации арабской цифровой записи чисел, седьмой блок ИЛИ 66, селектор 67 латинских цифр, блок 68 преобразования латинской записи чисел в арабскую, восьмой блок ИЛИ 69, блок 70 русификации слов латинского алфавита и блок 71 вербализации знаков алфавита метаязыка.
Блок 29 определения коммуникативного типа фраз и синтагм (фиг.8) содержит селектор 72 вопросительных фраз, блок 73 определения синтагмы, содержащей вопрос, девятый блок ИЛИ 74 и блок 75 определения коммуникативного типа синтагм. The
Блок 30 определения логического ударения (фиг.9) включает селектор 76 логически выделенных слов, десятый блок ИЛИ 77, селектор 78 слов, содержащих частный вопрос, селектор 79 семантически значимых слов, блок 80 определения последнего знаменательного слова синтагмы, одиннадцатый блок ИЛИ 81 и блок 82 логического выделения. The logical stress determination unit 30 (Fig. 9) includes a
Блок 31 фонетического транскрибирования текста (фиг.10) включает блок 83 устранения орфографических функций, блок 84 преобразования буквенной записи в фонетическую и блок 85 формирования слитной речи.
Блок 83 устранения орфографических фикций (фиг.11) включает блок 86 устранения орфографических фикций в окончаниях слов, блок 87 исключения непроизносимых согласных, блок 88 замены сочетаний согласных эквивалентной буквенной записью и блок 89 преобразования записи слов с твердым произношением "е".
Блок 84 преобразования буквенной записи в фонетическую (фиг.12) включает селектор 90 служебных слов, блок 91 ликвидации ударений в служебных словах, блок 92 ассимиляции служебных слов, двенадцатый блок ИЛИ 93, блок 94 замены ударений в слабоударных словах, блок 95 транскрибирования контекстов с мягким знаком, блок 96 транскрибирования контекстов с твердым знаком, блок 97 определения мягкости согласных перед маркированными гласными, блок 98 транскрибирования йотированных гласных в начале синтагмы, блок 99 транскрибирования йотированных гласных в позиции после гласной, блок 100 транскрибирования непарных мягких согласных, блок 101 определения звонкости-глухости согласных в сочетаниях согласных, блок 102 оглушения звонских согласных в конце синтагмы, блок 103 ассимиляции твердых согласных перед мягкими, блок 104 транскрибирования двойных согласных, селектор 105 слабоударных слов, блок 106 определения степени редукции гласных в словах с ударением, блок 107 замены гласных первой степени редукции, блок 108 определения степени редукции гласных в слабоударных словах, двенадцатый блок ИЛИ 109 и блок 110 замены гласных второй степени редукции.
Блок 33 мелодического процессора (фиг.13) содержит блок 111 сегментирования синтагмы на слоговые фрагменты, блок 112 определения класса слогового фрагмента и блок 113 определения параметров закона изменения частоты основного тона для сегментов слогов.
Блок компиляции 34 (фиг. 14) включает блок 114 выделения контекста, шифратор 115 кода элемента компиляции, блок 116 акустико-сегментной базы синтеза, блок 117 изменения временных и частотных характеристик элементов компиляции и блок композиции 118. The compilation unit 34 (FIG. 14) includes a
Устройство работает следующим образом. The device operates as follows.
По стартовому сигналу, поступающему с блока 9 интерфейса на блок 1 оптического ввода плоскопечатного текста,блок 1 начинает ввод графической информации, выполненной любым печатным шрифтом. В качестве блока оптического ввода плоскопечатного текста могут быть использованы серийно выпускаемые ручной или планшетный сканеры, например, сканеры фирмы Hewlett Packard, которые более автоматизированы и потому являются более удобны для незрячего пользователя. Для ввода книжного текста с помощью планшетного сканера необходима предварительная расшивка книги, все остальные операции по вводу осуществляются автоматически. Ручной сканер требует предварительной настройки зрячим оператором (в основном подбор яркости), имеет более узкую полосу захвата и более чувствителен к перекосу. According to the start signal from the interface unit 9 to the optical input unit 1 of the flat-printed text, the unit 1 starts inputting graphical information made in any printed font. As an optical input unit for flat-printed text, commercially available hand-held or flatbed scanners, for example, Hewlett Packard scanners, which are more automated and therefore more convenient for a blind user, can be used. To enter book text using a flatbed scanner, preliminary book flashing is necessary; all other input operations are carried out automatically. A hand-held scanner requires pre-adjustment by the sighted operator (mainly brightness), has a narrower capture band and is more sensitive to skew.
На выходе блока 1 появляется изображение вводимого текста в одном из графических форматов (обычно в TIFF-формате). По управляющему сигналу с блока 9 блок 2 оптического распознавания текста начинает распознавание графических символов алфавита для преобразования изображения текста в текстовый файл. Графический файл, как известно, представляет собой хранимую в оперативной или долговременной памяти матрицу изображения по элементам разрешения - пикселам. Для переносимости изображений, а также для их сжатия с целью экономии памяти используются различные стандартные форматы графических файлов - PCX, GIF,TIFF и др. Текстовый файл, как известно, представляет собой матрицу знакомест, где каждому знакоместу соответствует код некоего символа алфавита (пробел, буква, знак пунктуации, различные специальные символы). At the output of block 1, an image of the input text appears in one of the graphic formats (usually in TIFF format). By the control signal from block 9, the optical text recognition unit 2 starts recognition of graphic symbols of the alphabet for converting the image of the text into a text file. A graphic file, as you know, is a matrix of an image stored in operational or long-term memory by resolution elements - pixels. For portability of images, as well as for their compression in order to save memory, various standard graphic file formats are used - PCX, GIF, TIFF, etc. A text file, as you know, is a familiarity matrix, where each familiarity corresponds to a code of a certain alphabet symbol (space, letter, punctuation mark, various special characters).
Из разработанных систем оптического распознавания наиболее эффективны система CuneiForm фирмы Cognitive Technologies Ltd. и FineReader, разработка "Диалог-МИФИ". Of the developed optical recognition systems, CuneiForm by Cognitive Technologies Ltd. is the most efficient. and FineReader, development of Dialog-MEPhI.
Обе системы характеризуются высокой эффективностью распознавания (не более 1-3 ошибок на 1 страницы для типографского текста, текста, отпечатанного на лазерном или матричном 24-игольчатом принтерах, первого экз. машинописного текста (CuneiForm). Помимо того обеспечивает распознавание смешанных текстов (кириллица и латинский алфавит), а FineReader эффективно распознает и тексты низкого качества (например, ксерокопии, тексты, отпечатанные на 9-игольчатом матричном принтере). Блок 9 интерфейса обеспечивает интегрирование указанных систем оптического распознавания в заявленное устройство с учетом специфики незрячего пользователя. Both systems are characterized by high recognition efficiency (no more than 1-3 errors per 1 page for typographic text, text printed on a laser or matrix 24-needle printers, the first copy of typewritten text (CuneiForm). In addition, it provides recognition of mixed texts (Cyrillic and Latin alphabet), and FineReader also effectively recognizes low-quality texts (for example, photocopies, texts printed on a 9-needle matrix printer). Interface unit 9 provides the integration of these optical systems spoznavaniya claimed in device-specific user blind.
С выхода блока 2 текстовый файл передается в блок 3 унификации текстового файла. Этот блок приводит полученный текстовый файл в соответствие с возможностями синтезатора речи, которые более ограниченны, чем возможности живого субъекта, читающего плоскопечатный текст. From the output of block 2, the text file is transferred to block 3 of unification of the text file. This block brings the resulting text file in accordance with the capabilities of the speech synthesizer, which are more limited than the capabilities of a living subject reading flat-printed text.
Помимо знаков алфавита синтезируемого языка текст может включать различные символы метаязыка и нетекстовые вставки. Каждый текст имеет определенную графическую структуру (заголовки, разбивку на абзацы и т.д.), фрагментирующую текст на законченные в смысловом отношении фрагменты, причем приемы такой фрагментации достаточно разнообразны. Текст может иметь более или менее стандартное типографское оформление: выравнивание строк слева и справа, выделение абзацев красной строкой, отсутствие нетекстовых вставок. Однако при наличии нетекстовых вставок эта структура нарушается: может появиться несколько левых или правых границ. Машинописный текст, как правило, имеет нечеткое выравнивание по правой границе. Иногда абзацы не выделяются красной строкой и т. д. Графическая структура текста может оказаться нарушенной на выходе блока 2 оптического распознавания, если типографский текст набран немоноширинным шрифтом, может нарушиться выравнивание по правой границе текста (строки окажутся неравной длины), может оказаться сдвинутым начало строк, текст вообще может оказаться состоящим из нескольких колонок, из-за ошибок распознавания в текстовом файле могут проявиться символы, не входящие в допустимый алфавит. In addition to the characters of the alphabet of the synthesized language, the text may include various metalanguage characters and non-textual inserts. Each text has a certain graphic structure (headings, paragraphing, etc.), fragmenting the text into fragments that are finished in a meaningful sense, and the techniques for such fragmentation are quite diverse. The text can have more or less standard typographic design: alignment of lines to the left and right, highlighting of paragraphs with a red line, lack of non-text inserts. However, if there are non-textual inserts, this structure is violated: several left or right borders may appear. Typewritten text typically has fuzzy alignment on the right border. Sometimes paragraphs are not highlighted with a red line, etc. The graphic structure of the text may turn out to be violated at the output of optical recognition unit 2, if the typographic text is typed in a non-width font, alignment along the right border of the text may be violated (lines will turn out to be of unequal length), the beginning of lines may be shifted , the text in general may turn out to consist of several columns, due to recognition errors in the text file, characters that are not included in the valid alphabet may appear.
Блок оптического распознавания позволяет выделять колонки текста, однако делается это вручную в интерактивном режиме, что неприемлемо для потенциального пользователя. В блоке 10 осуществляется автоматическая проверка наличия более одной колонки в тексте. Признаком многоколоночного текста является наличие пробелов в одних и тех же позициях строк. Будем рассматривать каждую строку как вектор, и преобразуем строки-вектора по следующему правилу: i-тая составляющая, соответствующая i-той позиции в строке, равна 0, если в этой позиции пробел, и 1, если в этой позиции символ, отличный от пробела. Векторное суммирование полученных векторов строк и сравнение составляющих результирующего вектора с порогом позволяет выделить в строке связные области, соответствующие колонкам текста, многоколоночный текстовый файл в блоке 11 переформатируется в одноколоночный. The optical recognition unit allows you to select columns of text, however, this is done manually in interactive mode, which is unacceptable to a potential user.
Для того, чтобы выделить заголовки и абзацы текста, необходимо сначала проверить выровненность текста по левым и правым границам. Распознавание левых и правых границ текста осуществляется в блоке 12. Обозначим li - позицию в i-той строке, соответствующую первому отличному от пробела символу, и ri - позицию, соответствующую последнему, отличному от пробела и символа переноса строки символу. Пусть далее L - множество значений li, а R - множество значений ri для данного текста.In order to highlight the headings and paragraphs of the text, you must first check the alignment of the text on the left and right borders. Recognition of the left and right borders of the text is carried out in
На множествах L и R определяются соответствующие распределения частотностей значений левых и правых границ строк в тексте, а также распределение правых границ строк, завершающихся знаком переноса, и правых границ строк, не завершающихся знаками конца фразы. On the sets L and R, the corresponding frequency distributions of the values of the left and right boundaries of the lines in the text are determined, as well as the distribution of the right borders of the lines ending with a hyphen and the right boundaries of the lines not ending with the characters of the end of the phrase.
Правые границы текста распознаются по их коррелированности с границами строк, завершающихся переносами, или, если переносы слов в тексте отсутствуют, с границами "незавершенных" строк (строк, не завершающихся пунктуационными знаками, ставящимися в конце фраз). Для нечетких правых границ определяются их статистические характеристики (математическое ожидание и дисперсия). Левые границы определяются на подмножестве строк, следующих за вышеперечисленными. The right borders of the text are recognized by their correlation with the boundaries of lines ending with hyphens, or, if there are no word hyphens in the text, with the boundaries of "incomplete" lines (lines that do not end with punctuation marks at the end of phrases). For fuzzy right borders, their statistical characteristics (mathematical expectation and variance) are determined. Left borders are defined on a subset of the lines following the above.
Отступы красных строк определяются на подмножестве строк, начало которых не совпадает с выделенными левыми границами, по их коррелированности с началом фраз и с "неполнотой" предыдущей строки (т.е. в конце строки стоит пунктуационный знак конца фразы, а конец строки не доходит до правой границы текста или отклонение от нечеткой границы превышает толерантный интервал). По найденным значениям отступов красных строк и левых границ определяются начальные позиции для красных строк. Indentation of red lines is determined on a subset of lines whose beginning does not coincide with the selected left borders, by their correlation with the beginning of phrases and with the “incompleteness” of the previous line (that is, the punctuation mark of the end of the phrase is at the end of the line, and the end of the line does not reach the right border of the text or deviation from the fuzzy border exceeds the tolerance interval). From the found values of the indentation of the red lines and the left borders, the starting positions for the red lines are determined.
Красные строки (если они есть в тексте) распознаются в блоке 13 по соответствующей позиции начала строки и при условии, что начало строки соответствует началу фразы (для исключения случайных совпадений). Red lines (if they are in the text) are recognized in
В блоке 14 выделяются абзацы. Обычно в тексте начало абзаца выделяется красной строкой, однако не всегда. Если в данном тексте красные строки не обнаружены, то конец абзаца определяется по признаку "неполноты" строки. In
В блоке 15 проверяется наличие в тексте недопустимых символов, обнаруженные недопустимые символы заменяются пробелами. In
В блоке 16 ликвидируются знаки переноса в словах (для уменьшения многозначности символа "-"), а блок 17 переформатирует текстовый файл в соответствии с принятым стандартом. Этому стандарту соответствует текст в одну колонку с выделением абзацев красными строками и с нечеткой правой границей. Если очередное слов не умещается на текущей строке, оно переносится на следующую, при этом правая граница не выравнивается за счет пробелов. In
Основываясь на обычном житейском опыте, можно сказать, что человеку несвойственно однократное линейное чтение текстовой информации с начала и до конца. Люди обычно неоднократно возвращаются к ранее прочитанному для более адекватного понимания некоторых положений с учетом далее изложенного или просто для того, чтобы освежить в памяти кое-что из ранее прочитанного. Естественно, что каждый раз вводить и распознавать уже однажды прочитанный текст - пустая трата времени. Текстовый файл занимает объем памяти, на 2-3 порядка меньший, чем графический или звуковой файлы, поэтому есть смысл сохранять в долговременной памяти однажды полученный текстовый файл. 250 Мгб памяти на жестком диске позволяют хранить до 100 тыс. страниц текста (или примерно 100 страниц озвученного текста в виде звукового файла). Для того, чтобы можно было достаточно быстро отыскать нужный текстовый файл хранимые текстовые файлы необходимо организовать в некую базу данных (БД), которая становится уже предметом коллективного пользования. Конкретное построение БД будет изложено ниже. Based on the usual everyday experience, it can be said that a person is not characteristic of a single linear reading of textual information from beginning to end. People usually come back to what they have read before for a more adequate understanding of certain provisions, taking into account what is stated below or simply to refresh some of what they have read before. Naturally, entering and recognizing once already read text each time is a waste of time. A text file takes up a memory space that is 2–3 orders of magnitude smaller than a graphic or sound file, so it makes sense to store the text file once received in long-term memory. 250 megabytes of memory on your hard drive allows you to store up to 100 thousand pages of text (or about 100 pages of voiced text in the form of an audio file). In order to be able to quickly find the desired text file, stored text files must be organized into a certain database (DB), which is already becoming a subject of collective use. The specific construction of the database will be described below.
В зависимости от управляющего сигнала на входе блока 4 на выход последнего поступает текущий текстовый файл, или файл, выбранный с помощью интерфейса БД. Этот файл с выхода блока 4 поступает на вход блока синтеза 5 и через блок 7 сопряжения - на вход тактильного дисплея 8. Блок синтеза 5 формирует на основе текстового файла звуковой файл в одном из звуковых форматов, последний преобразуется системой вывода звука типа Sound Blaster в аналоговый сигнал звуковой частоты. С линейного выхода этот сигнал поступает на оконечный аудиоблок 6, где преобразуется в требуемую для пользователя форму. В качестве оконечного аудиоблока могут использоваться пассивные или активные (с регулировкой громкости и тембра) акустические системы, преобразующие аналоговый сигнал в акустическую волну (речевой поток), и/или аналоговый магнитофон. В последнем случае параллельно звуковому выводу осуществляется магнитная запись речевого сигнала. Эта магнитная запись в дальнейшем может использоваться как обычная "говорящая книга". Синтезированная "говорящая книга" является побочным продуктом и естественно уступает по качеству "настоящей говорящей книге", являющейся чем-то вроде передачи "театр у микрофона". Однако она может быть оперативно получена с меньшими затратами (не требуется наличие квалифицированного диктора и студии звукозаписи, стоимость аренды которой достаточно высока). Кроме того, синтезированная и обычная "говорящая книга" имеют разное целевое назначение. Обычная "говорящая книга" удовлетворяет в основном эстетические запросы пользователя, а синтезированная - только информационные. Depending on the control signal at the input of block 4, the output of the latter receives the current text file, or a file selected using the database interface. This file from the output of block 4 goes to the input of synthesis block 5 and through the pairing block 7 to the input of the tactile display 8. Synthesis block 5 generates a sound file in one of the audio formats based on the text file, the latter is converted by the sound output system of the Sound Blaster type into analog sound frequency signal. From the linear output, this signal is fed to the terminal audio unit 6, where it is converted into the form required by the user. Passive or active (with volume and timbre control) acoustic systems that convert an analog signal into an acoustic wave (speech stream) and / or an analog tape recorder can be used as a terminal audio block. In the latter case, a magnetic recording of the speech signal is carried out in parallel with the audio output. This magnetic record can later be used as an ordinary “talking book”. The synthesized “talking book” is a by-product and naturally inferior in quality to the “real talking book”, which is a bit of a “theater at the microphone” show. However, it can be quickly obtained at a lower cost (it does not require a qualified announcer and recording studio, the rental price of which is quite high). In addition, the synthesized and the usual "talking book" have different purposes. The usual “talking book” mainly satisfies the aesthetic needs of the user, and the synthesized one only informative.
Тактильный дисплей дублирует речевой вывод, позволяя прочесть непонятные или просто плохо воспринимаемые на слух слова, кроме того, некоторые специфические графические средства текста, например таблицы, вообще плохо поддаются адекватной линейной вербализации. The tactile display duplicates the speech output, allowing you to read words that are incomprehensible or simply poorly perceived by hearing, in addition, some specific graphic means of the text, such as tables, generally do not lend themselves well to adequate linear verbalization.
В блоке синтеза 5 реализован компиляционный способ синтеза речи по орфографическому тексту, при этом в качестве базовых элементов компиляции выбраны сегменты фонемной размерности - аллофоны. Synthesis block 5 implements a compilation method for synthesizing speech using spelling text, while segments of the phoneme dimension — allophones — are selected as the basic compilation elements.
Поскольку при алфавитном письме базовыми элементами письменной речи являются буквы, которым в устной речи соответствуют элементы фонемной размерности, базовые элементы компиляции естественно выбрать той же размерности. При этом синтезатор речи, рассматриваемый как своего рода интеллектуальный решатель определенной задачи, получается прозрачным, или артикулирующим. Последнее означает, что такой решатель позволяет не только получить конечное решение, но и проследить весь путь его получения в привычной для данной предметной области форме. В данном случае это значит, что трансляция письменного речевого фрагмента на алфавит базовых элементов компиляции приводит к привычной для данной предметной области задаче фонетического транскрибирования текста, а фонетические значения, структурированные и формализованные с использованием технологий искусственного интеллекта, могут быть положены в основу базы знаний синтезатора. Since in alphabetical writing the basic elements of written speech are letters, which in spoken language correspond to elements of the phoneme dimension, the basic compilation elements naturally choose the same dimension. In this case, the speech synthesizer, regarded as a kind of intellectual solver of a certain task, turns out to be transparent, or articulating. The latter means that such a solver allows not only to obtain the final solution, but also to trace the entire path of its receipt in the form familiar to the given subject area. In this case, this means that translating a written speech fragment into the alphabet of basic compilation elements leads to the problem of phonetic transcription of text familiar to a given subject area, and phonetic values structured and formalized using artificial intelligence technologies can form the basis of the synthesizer's knowledge base.
В русском языке можно выделить 10 гласных и 37 согласных фонем. Сами по себе фонемы не исчерпывают всего многообразия звуков русской речи. In Russian, 10 vowels and 37 consonant phonemes can be distinguished. By themselves, phonemes do not exhaust the whole variety of sounds of Russian speech.
Артикуляция каждого звука, как гласного, так и согласного, состоит из трех фаз - начальной, когда активный орган речи их исходного положения движется по направлению к соответствующему пассивному (экскурсия), срединной, или выдержки, когда активный орган речи находится по отношению к пассивному органу в положении, необходимом для производства данного звука, и конечной, когда активный орган речи возвращается в исходное положение (рекурсия). В речевом потоке артикуляции разных звуков как бы накладываются друг на друга: рекурсия данного звука по времени совпадает с экскурсией следующего, а экскурсия - с рекурсией предыдущего. The articulation of each sound, both vowel and consonant, consists of three phases - the initial, when the active organ of speech of their initial position moves towards the corresponding passive (excursion), middle, or shutter speed, when the active organ of speech is in relation to the passive organ in the position necessary for the production of a given sound, and final, when the active organ of speech returns to its original position (recursion). In the speech stream, the articulations of different sounds seem to overlap: the recursion of this sound in time coincides with the excursion of the next, and the excursion with the recursion of the previous one.
Поэтому в слитном речевом потоке акустическая реализация конкретной фонемы будет зависеть от контекстного окружения. Эти контекстные реализации фонем - аллофоны - и выбраны в качестве базовых элементов компиляции. Общий объем акустико-сегментной базы синтеза при таком подходе составляет порядка 100 тыс. , что требует огромных трудозатрат на составление такого словаря. Необходимый набор можно сократить путем обобщения тождественных контекстных влияний. При удачном обобщении практически решается и проблема адекватной стыковки базовых элементов компиляции при синтезе речи. Задача поиска возможных обобщений и тем самым оптимального набора аллофонов может быть решена лишь с учетом знаний акустических рефлексов коартикуляционных процессов. Такой подход можно считать основанным на фонетических знаниях в том понимании, которое принято в исследованиях по искусственному интеллекту. Therefore, in a continuous speech stream, the acoustic realization of a particular phoneme will depend on the contextual environment. These contextual implementations of phonemes - allophones - are chosen as the basic compilation elements. The total volume of the acoustic-segment synthesis base with this approach is about 100 thousand, which requires enormous labor costs for compiling such a dictionary. The necessary set can be reduced by summarizing the identical contextual influences. With a successful generalization, the problem of adequate matching of the basic compilation elements in speech synthesis is practically solved. The search for possible generalizations and thereby the optimal set of allophones can be solved only taking into account the knowledge of acoustic reflexes of co-articulation processes. This approach can be considered based on phonetic knowledge in the sense that is accepted in research on artificial intelligence.
Для формирования аллофонной базы подобран специальный словарь, состоящий из слов, содержащих необходимые аллофоны в требуемых контекстах. Слова этого словаря произносятся диктором, записываются и вводятся в машину в цифровом виде. Затем с помощью пакета программ (например, Tool Kit) осуществляется вычленение акустических сегментов, соответствующих заданным аллофонам, и из этих сегментов формируется акустико-сегментная база синтеза. For the formation of the allophone base, a special dictionary is selected, consisting of words containing the necessary allophone in the required contexts. The words of this dictionary are pronounced by the announcer, recorded and entered into the machine in digital form. Then, using the software package (for example, Tool Kit), the acoustic segments corresponding to the given allophones are extracted, and an acoustic-segment synthesis base is formed from these segments.
Полученная акустико-сегментная база синтеза содержит 687 базовых элементов компиляции, в основном представляющих собой сегменты речевой волны фонемной размерности, хотя в некоторых случаях это соответствие нарушается. Для синтеза смычных и вибрантов используется более одного акустического сегмента, а для синтеза двухсимвольных последовательностей, например, заударных флексий, используется один акустический сегмент. The resulting acoustic-segment synthesis base contains 687 basic compilation elements, mainly representing segments of a phonemic speech wave, although in some cases this correspondence is violated. For the synthesis of closures and vibrants, more than one acoustic segment is used, and for the synthesis of two-character sequences, for example, shock inflections, one acoustic segment is used.
Гласные представлены шестью фонемами в сильной позиции (в ударном слоге): { а^,o^,y^,и^,ы^,э^} и восемью безударными, в том числе:
- первой степени редукции {а,у2,и,ы,о},
- второй степени редукции {ъ,ь,у1}.Vowels are represented by six phonemes in a strong position (in the stressed syllable): {a ^, o ^, y ^, and ^, s ^, э ^} and eight unstressed, including:
- the first degree of reduction {a, y2, u, s, o},
- second degree of reduction {b, b, y1}.
В качестве левых контекстах выделены следующие:
- переднеязычный твердый {д,т,с,з,ц,дз,ш,ж,а^,а,ъ,э^,э},
- губной твердый {б,п,в,ф,л,у^,у1,у2,о^,о},
- переднеязычный носовой {н},
- губной носовой {м},
- вибрантный твердый {р},
- мягкий неносовой: все согласные, помещенные знаком мягкости ('), кроме {м',н'}, а также {и^,и,ь,ы^,ы},
- мягкий носовой переднеязычный {н'},
- мягкий носовой губной {м'},
- начало синтагмы (начальный).The following are highlighted as left contexts:
- anterior lingual solid {d, t, s, s, z, q, dz, w, x, a ^, a, b, e ^, e},
- labial hard {b, n, c, f, l, y ^, y1, y2, o ^, o},
- anterior lingual nasal {n},
- labial nasal {m},
- vibrant solid {p},
- soft non-nasal: all consonants placed with a soft sign ('), except {m', n '}, as well as {u ^, u, b, s ^, s},
- soft nasal anterior lingual {n '},
- soft nasal labial {m '},
- beginning of syntagma (initial).
В качестве правых выделены следующие классы контекстов:
- переднеязычный твердый {д,т,с,з,ц,дз,ш,ж,н,к,г,х,а^,а, ъ,э^,э,ы^,ы} кроме позиции согласных {к,г,х} перед {у^,у1,у2, о^,о},
- губной твердый { б,п,в,ф,л,м,у^,у1,у2,о^,о}, а также {к,г,х}, если за ними {у^,у1,у2,о^,о},
- вибрантный твердый {р},
- мягкий, т.е. все согласные, помеченные знаком мягкости, а также {и^,и, ь},
- конец синтагмы (конечный).The following context classes are highlighted as right:
- front-lingual solid {d, t, s, s, z, q, dz, w, x, n, k, r, x, a ^, a, b, e ^, e, s ^, s} except for the consonant {k , r, x} before {y ^, y1, y2, o ^, o},
- labial firm {b, n, c, φ,,, m, y ^, y1, y2, o ^, o}, as well as {k, r, x}, if {y ^, y1, y2, o ^ o},
- vibrant solid {p},
- soft, i.e. all consonants marked with a soft sign, as well as {u ^, u, b},
- end of syntagma (final).
Согласные разделены на 7 классов:
1) звонкие и глухие смычные (твердые и мягкие) {б,д,г,п,т,к,б',д',г',п', т',к'},
2) твердые фрикативные (кроме [x]) {с,з,ш,ж,ц,ф,дз},
3) мягкие фрикативные (кроме [x']) {с',з'щ',ч'ф',ж',дж'}
4) носовые {м,н,м',н'},
5) плавные сонанты {л,h^,л',й'} и {в,в',x,x'},
6) вибранты {р,р'},
7) йот {j}.Consonants are divided into 7 classes:
1) voiced and deaf closing (hard and soft) {b, d, d, p, t, k, b ', d', g ', p', t ', k'},
2) solid fricatives (except [x]) {c, s, w, w, q, f, dz},
3) soft fricatives (except [x ']) {c', z'shch, ch'f ', zh, j'}
4) nasal {m, n, m ', n'},
5) smooth sonants {l, h ^, l ', d'} and {c, b ', x, x'},
6) vibrants {p, p '},
7) iot {j}.
Для классов 1) и 2) выделены только правые контексты, всего 4 класса:
- {у^,у,o^},
- конечный,
- для мягких звуков любой контекст, кроме конечного,
- все остальные контексты.For classes 1) and 2), only the right contexts are allocated, 4 classes in total:
- {y ^, y, o ^},
- final
- for soft sounds, any context except the final one,
- all other contexts.
Для класса 3) выделены 2 класса левых контекстов:
- начальный,
- все остальные; и 2 класса правых контекстов:
- конечный,
- любой, кроме конечного, для мягких звуков.For class 3), 2 classes of left contexts are distinguished:
- initial
- other; and 2 classes of right contexts:
- final
- any, except the final one, for soft sounds.
Для носовых (класс 4) контексты не выделяются, т.е. реализация этих звуков не зависит от контекстного окружения. For nasal (class 4) contexts are not allocated, i.e. the implementation of these sounds is independent of the contextual environment.
Для класса 5) выделены 4 класса левых контекстов:
- {у^,у,o^},
- начальный,
- {и^,ы^,и,ы,ь,э^},
- все остальные,
и 4 класса правых контекстов:
- {у^,у,о^},
- конечный,
- любой, кроме конечного для мягких звуков,
- все остальные.For class 5), 4 classes of left contexts are allocated:
- {y ^, y, o ^},
- initial
- {u ^, s ^, u, s, b, e ^},
- other,
and 4 classes of right contexts:
- {y ^, y, o ^},
- final
- any other than the final one for soft sounds,
- other.
Для вибрант (класс 6) выделены левые, правые и связанные контексты, где под связанными контекстами понимаются случаи взаимозависимого существования левого и правого контекстов. Для данного класса - это условие одновременного наличия гласной слева и справа, т.е. интервокальная позиция. Для остальных случаев выделены 4 класса левых контекстов:
- {у^,у,о^,б,п,ф,в,л,м},
- начальный,
- {и^,ы^,и,ы,ь,э^} и все мягкие согласные,
- все остальные контексты;
и 4 класса правых контекстов:
- {у^,у,о^,б,п,ф,в,л,м},
- конечный,
- любой, кроме конечного, для [p'],
- все остальные контексты.For vibrant (class 6), left, right, and connected contexts are distinguished, where connected contexts are understood as cases of the interdependent existence of left and right contexts. For this class, this is a condition for the simultaneous presence of a vowel on the left and on the right, i.e. intervocal position. For the remaining cases, 4 classes of left contexts are distinguished:
- {y ^, y, o ^, b, n, φ, c, l, m},
- initial
- {and ^, s ^, and, s, b, e ^} and all soft consonants,
- all other contexts;
and 4 classes of right contexts:
- {y ^, y, o ^, b, n, φ, c, l, m},
- final
- any, except the final, for [p '],
- all other contexts.
При формировании аллофонов для вибрант всегда, кроме случаев конечной позиции используются аллофоны для интервокальной позиции, объединяемые с контекстно обусловленными аллофонами, последние всегда приклеиваются со стороны согласного или начала. В случае окружения двух согласных склеиваются два одинаковых контекстно обусловленных аллофона и аллофон для интервокальной позиции вставляется между ними. When forming allophone for vibrant, always, except in cases of final position, allophone for the intervocal position is used, combined with contextually determined allophones, the latter are always glued from the consonant or the beginning. In the case of the environment of two consonants, two identical contextually determined allophones are glued together and an allophone for the intervocal position is inserted between them.
Для класса 7) выделены 4 класса левых контекстов, совпадающих с классами левых контекстов для вибрант, и 3 класса правых контекстов:
- конечный,
- гласные,
- согласные.For class 7), 4 classes of left contexts are selected that coincide with classes of left contexts for vibrants, and 3 classes of right contexts:
- final
- vowels,
- consonants.
Блок синтеза 5 работает следующим образом. Озвучивание текстового файла осуществляется циклически - по завершении озвучивания очередного фрагмента начинается озвучивание следующего и т.д. Интерфейс предусматривает возможность возврата к прочитанному фрагменту и повторное его прочтение в выбранном режиме. Этот прием представляется вполне оправданным, поскольку текстовый файл может оказаться достаточно большим и нет смысла ожидать, пока он будет весь обработан от начала до конца. Фрагмент текста обрабатывается, преобразуется в звуковой файл, и пока этот звуковой файл выводится через систему ввода-вывода звука, происходит обработка следующего фрагмента. При этом сокращается время реакции (оно равно длительности обработки одного фрагмента, а не всего текста) и уменьшается объем выводимого звукового файла. Block synthesis 5 operates as follows. Sounding of a text file is carried out cyclically - at the end of sounding of the next fragment, sounding of the next begins, etc. The interface provides the ability to return to the read fragment and re-reading it in the selected mode. This technique seems to be justified, since the text file can be quite large and there is no point in waiting until it is completely processed from beginning to end. A fragment of the text is processed, converted into a sound file, and while this sound file is output through the sound input-output system, the next fragment is processed. At the same time, the reaction time is reduced (it is equal to the processing time of one fragment, and not the entire text) and the volume of the output sound file is reduced.
Минимальным однозначно выделяемым фрагментом, синтаксически независимым от соседних фрагментов, является абзац. В предлагаемом синтезаторе чтение осуществляется по абзацам, для этого в блоке 3 и осуществлялось распознавание и выделение абзацев. The smallest unambiguously allocated fragment, syntactically independent of neighboring fragments, is a paragraph. In the proposed synthesizer, reading is carried out in paragraphs; for this, in
В блоке 18 осуществляется выбор текущего абзаца для чтения. На информационный вход поступает озвучиваемый текстовый файл, а на первый управляющий вход от блока интерфейса поступает адрес абзаца, с которого начинается чтение. В дальнейшем адрес текущего абзаца поступает на второй управляющий вход с блока 35 вывода звукового файла (следующий абзац, возврат к предыдущему, повторный вывод и т.д.). Блок 19 осуществляет чтение текущего абзаца (перевод из долговременной памяти в оперативную, а в блоке 20 производится предварительный синтаксический анализ абзаца (предварительная обработка знаков пунктуации). In
Блок 21 выделяет в абзаце слова - лексемы, отделенные пробелом или знаком переноса строки (переносы слов ликвидированы в блоке 3). Последовательность кодов, соответствующих Выделенному потоку слов абзаца, поступает в блок селектора 22. Селектор 22 разделяет слова, состоящие из кодов символов русского алфавита и кодов символов метаязыка (букв латинского алфавита, цифр, специальных знаков). Если слово состоит из кодов букв русского алфавита, то оно обрабатывается в блоке 23 распознавания слов на русском алфавите, где на основе морфологического анализа осуществляется распознавание слов русского языка, определение части речи и автоматическая расстановка ударений в словах, в противном случае слово обрабатывается в блоке 34, где оно транслируется в слова на русском алфавите. С выхода первого блока ИЛИ 25, объединяющего результаты этих двух ветвей обработки, поток кодов слов абзаца поступает на вход блока 36, где осуществляется контекстная расшифровка, не распознанных в блоке 23 сокращений слов. Правила контекстной расшифровки сокращений слов представляются в соответствующих пунктах базы знаний синтезатора.
В результате в блоке 26 устраняется неоднозначность использования точки - на выходе блока тока определяет только конец предложения. В блоке 27 осуществляется согласование словесных эквивалентов цифровой записи, полученных в блоке 24, и расшифровок слов-сокращений по родам, числам и падежам на основе анализа контекста. As a result, the ambiguity of using a point is eliminated in
В блоке 28 выделяются в абзаце фразы и синтагмы как последовательность лексем, разделенных знаками пунктуации. Путем анализа знаков пунктуации и слов фраз и ситагм в блоке 29 определяется коммуникативный тип последних, а в блоке 30 - логическое ударение. На основе информации об ударениях в словах и структурированных фонетических знаний о правилах перехода "буква-фонема" в словах с известным ударением в блоке 31 осуществляется автоматическое фонетическое транскрибирование текста абзаца. Временной процессор 32 и мелодический процессор 33 формируют параметры для управления просодией синтезированной речи: с помощью временного процессора 32 определяются требуемые длительности звуковых элементов, а с помощью мелодического процессора 33 - мелодический контур (аппроксимация закона изменения частоты основного тона). In
В блоке компиляции 34 осуществляется собственно сборка речевого сообщения: фонетическая запись преобразуется в запись на языке алфавита элементов компиляции, необходимые элементы компиляции в виде оцифрованных сегментов естественной речевой волны извлекаются из базы данных, осуществляется их модификация в соответствии с параметрами, определенными в блоках 32 и 33, и сборка речевого сообщения путем композиции модифицированных фрагментов. Файл на выходе блока 34 представляет собой оцифрованный аудиосигнал. In the
В блоке 35 этот файл преобразуется в совместимый с используемой системой ввода-вывода звука формат (например, wav-, vjc- или snd-формат). В блоке 36 полученный звуковой файл передается для вывода через звуковую карту. На основе анализа прерываний от клавиатуры на втором выходе блока формируется управляющий сигнал для перехода к следующему абзацу, для повторного вывода текущего в том же режиме, для повторного формирования текущего в другом режиме или для возврата к предыдущему абзацу. In
Пунктуация характеризуется тем, что располагает очень небольшим количеством средств. В этим связаны две особенности пунктуационных знаков: широта их значения и многозначность. Для снижения этой многозначности в блоке 20 осуществляется предварительный синтаксический анализ абзаца. Блок работает следующим образом. Punctuation is characterized by the fact that it has a very small amount of funds. Two features of punctuation marks are connected in this: the breadth of their meaning and polysemy. To reduce this ambiguity in
Селектор 37 выделяет в абзаце коды знаков пунктуации, которые в зависимости от управляющего сигнала, поступающего на коммутатор 38, обрабатываются либо в блоке 39, либо в блоках 41,42,43,44. The
В блоке 39 знаки пунктуации вербализуются. Этот режим пользователь выбирает в том случае, если хочет иметь полное представление о расстановке знаков препинания в исходном тексте абзаца, в том числе и о тех, которые не получают интонационного выражения в устной речи. Речевое сообщение в этом случае напоминает диктовку для машинистки. In
В другом режиме синтаксис абзаца отражается только интонационными средствами. In another mode, the paragraph syntax is reflected only in intonation.
Для уменьшения вышеупомянутой многозначности знаков пунктуации в блоке 41 эти знаки анализируются в контексте. Разделяются символы тире и дефиса (тире имеет пробелы слева и справа). Разделяются скобки как пунктуационный знак (наличие открывающей и закрывающей скобок, как в данном фрагменте) и скобка как графическое средство. Разделяются апостроф в функции кавычек (наличие пробела до или после апострофа) и апостроф, употребляемый в написании слов ("под'езд","а'натюрель"). Разделяются точка и многоточие, точка как пунктуационный знак и десятичная точка или запятая в записи десятичных дробей). В блоке 42 устраняются пунктуационные фикции, т.е. пунктуационные средства графической речи, которые не находят отражения в устной речи. Чисто графическим приемом является то, что после закрывающей скобки ставится знак препинания, которым должна завершаться часть фразы до скобок. В блоке 42 этот знак ставится перед открывающей скобкой, а сами скобки заменяются точками, если за закрывающей скобкой стоит знак завершения фразы, или запятыми, если пробел. Точкой заменяется и восклицательный знак и многоточие, если за ним следует новый абзац или слово с большой буквы (в противном случае - пробел). Заменяются пробелами знаки тире перед кавычками в начале абзаца (чисто графический прием, обозначающий диалог). Заменяются пробелами кавычки. При наличии нескольких пунктуационных знаков подряд (в результате вышеописанных преобразований или ошибок системы оптического распознавания) более слабые знаки поглощаются более сильными. To reduce the aforementioned ambiguity of punctuation marks in
В блоке 43 пунктуационные знаки селектируются по признаку цифрового контекста. Если контекст цифровой (первый выход), пунктуационные знаки вербализуются в блоке 44, например:
5.6 - "5, точка 6,
5,6 - "5, запятая 6",
факс. 276-43-12 - "факс. 246, тире 43, тире 12".In
5.6 - "5, point 6,
5.6 - "5, comma 6",
fax machine. 276-43-12 - "Fax. 246,
Блок 23 распознавания слов на русском языке работает следующим образом. В блоке 45 коды анализируется коды символов, составляющих данное слово. Коды прописных символов преобразуются в коды строчных, а информация о наличии в слове кодов прописных букв запоминается. Далее в зависимости от наличия в составе слова пунктуационного знака и вида этого знака адрес слова передается на дальнейшую обработку. Если слово завершается точкой (первый выход селектора 46), обработка далее осуществляется в первом селекторе 47 слов-сокращений. Последний проверяет наличие данного слова в базе данных (в "списке") обычно используемых сокращений слов. Если слово там обнаружено, оно не обрабатывается в блоке 23 и поступает на его выход с первого выхода первого селектора 47 через третий блок ИЛИ 48.
Если слово не является словом-сокращением6 т. е. точка - знак конца предложения, то оно обрабатывается как обычное слово русского языка без всяких пунктуационных знаков (для последних четвертый выход селектора 46 - четвертый блок ИЛИ 49). Эта обработка осуществляется в блоке 50 морфологического анализа. Морфологический анализ осуществляется путем отсечения флексий и префиксов и выделения основы, заключающей лексическое значение слова. If the word is not an abbreviation6, i.e., the dot is the end of sentence, then it is treated as an ordinary word of the Russian language without any punctuation marks (for the latter, the fourth output of
Морфологический анализ эквивалентен решению уравнения
W = Хp•Х(1)•...Х(n-1)•Х(n),
где W - анализируемое слово,
Хp - префикс или пустое слово,
Х(1) ,...,Х(n-1) - одна или несколько основ (возможно, с соединительной гласной на конце),
Х(n) - флексия или пустое слов.Morphological analysis is equivalent to solving the equation
W = X p • X (1) • ... X (n-1) • X (n) ,
where W is the analyzed word,
X p is the prefix or empty word,
X (1) , ..., X (n-1) - one or more stems (possibly with a connecting vowel at the end),
X (n) - inflection or empty words.
Уравнение решается следующим образом. В каждом цикле справа отсекается m символов, а оставшаяся слева часть слова рассматривается как потенциальная основа и осуществляется проверка наличия ее в базе данных основ. Если данная часть слова в базе данных не найдена, m увеличивается на единицу (начальное значение m=0), и цикл повторяется. Если ни в одном из циклов соответствующей основы не обнаружено, делается попытка выделить в начале слова один из префиксов списка, если это удается, префикс отсекается и процесс повторяется для оставшейся части слова. Если префикс выделить не удается, слово считается нераспознанным. The equation is solved as follows. In each cycle, m symbols are cut off to the right, and the left part of the word is considered as a potential basis and its presence is checked in the basis database. If this part of the word is not found in the database, m increases by one (initial value m = 0), and the cycle repeats. If no corresponding basis is found in any of the cycles, an attempt is made to select one of the list prefixes at the beginning of the word, if this succeeds, the prefix is cut off and the process is repeated for the rest of the word. If the prefix cannot be selected, the word is considered unrecognized.
Если основа найдена в базе данных, то из базы данных выбирается множество флексий для данной основы, и отделенная справа часть слова сравнивается с ними. Если она совпадает с одной из флексий, слово считается распознанным, для данной словоформы из базы данных извлекается информация о части речи, грамматической форме и ударении (в русском языке в многоосновных словах ударение всегда определяется последней основой). Эта информация связывается с данной словоформой. Если же ни одна из флексий не совпадает с правой частью слова, а одна из них, включая флексию нулевой длины, является ее начальным вхождением, соответствующее слово слева, включая соединительную гласную, если она обнаружена отсекается, и процесс повторяется для оставшейся справа части. Таким образом распознаются слова без окончаний, флексивно изменяемые слова, слова, образованные с помощью префиксов, многоосновные слова. If the basis is found in the database, then many inflections for the given basis are selected from the database, and the part of the word separated on the right is compared with them. If it coincides with one of the inflections, the word is recognized, for this word form information is extracted from the speech part, grammatical form and stress (in Russian in polybasic words the stress is always determined by the last basis). This information is associated with this word form. If none of the inflections coincides with the right part of the word, and one of them, including the inflection of zero length, is its initial occurrence, the corresponding word on the left, including the connecting vowel, if it is detected is cut off, and the process is repeated for the remaining part on the right. Thus, words without endings, flexibly mutable words, words formed using prefixes, polybasic words are recognized.
В русском письме довольно часто используются не все буквы русского алфавита, в частности, вместо графемы "йо" часто употребляется графема "е", а вместо разделительного твердого знака иногда употребляется апостроф. Буква "йо" отсутствует во многих текстовых редакторах, в том числе и в редакторе ОСR CuneiForm. Для правильной фонетической транскрипции необходимо автоматическое восстановление там, где это требуется, графемы "йо". В базе данных содержатся оба варианта написания слов с "йо", и информация о наличии в слове "йо" вместе с другой грамматической информацией поступает на выход блока 50. По этой информации в блоке 51 нужная буква "е" заменяется на "йо". In the Russian letter quite often not all letters of the Russian alphabet are used, in particular, grapheme "e" is often used instead of grapheme "yo", and an apostrophe is sometimes used instead of a solid dividing sign. The letter "yo" is missing in many text editors, including the OSR CuneiForm editor. For the correct phonetic transcription, automatic restoration, where required, of the grapheme "yo" is necessary. The database contains both spellings of the words with "yo", and information about the presence of the word "yo" together with other grammatical information is sent to the output of
В блоке 52 нераспознанные слова, ассоциированные с прописными буквами, воспринимаются как аббревиатуры. В блоке 53 аббревиатуры транскрибируются по следующим правилам:
- двухбуквенные аббревиатуры читаются "по буквам" (композиция из названий букв) с ударением на последней гласной (РФ - эрэ^ф, КА - каа^);
- трехбуквенные и четырехбуквенные аббревиатуры читаются "как слово" при отсутствии стечения двух и более согласных с ударением на первой прикрытой спереди согласной гласной, в остальных случаях - "по буквам" с ударением на последнем слоге. Например, ВОС - во^c, ЭМИ - эми^, НЛО - энэло^, НАТО - на^ то, ОПЕК - опе^к, ОДМО - одээмо^;
- все остальные читаются "как слово", если в аббревиатуре не более двух согласных подряд, или "по буквам" в противном случае, ударение падает на последнюю прикрытую справа согласной гласную (АСАЛМ - аса^лм, ЮНЕСКО - юне^ ско, ОБХСС - обэхаэсэ^с).In
- two-letter abbreviations are read "by letter" (composition of the names of the letters) with emphasis on the last vowel (RF - er ^ f, KA - kaa ^);
- three-letter and four-letter abbreviations are read “like a word” in the absence of a combination of two or more consonants with an accent on the first consonant vowel, which is covered in front, in other cases - “spell” with an accent on the last syllable. For example, VOS - vo ^ c, EMP - emi ^, UFO - enelo ^, NATO - on ^ that, OPEC - ope ^ k, ODMO - odeemo ^;
- all the others are read “like a word” if in the abbreviation there are no more than two consonants in a row, or “spell” otherwise, the emphasis falls on the last vowel covered on the right by the consonant (ASALM - asa ^ lm, UNESCO - unesco, OBXSS - obehaese ^ s).
Если слово не воспринято как аббревиатура, то в блоке 54 на основании грамматической информации, ассоциированной со словом, определяется код части речи и в блоке 55 обозначается ударный слог. If the word is not taken as an abbreviation, then in
Коды слов, содержащие символ дефиса, со второго выхода селектора 46 поступают на вход второго селектора 56. Последний аналогично первому селектору 47 распознает слова-сокращения, записанные через дефис (например, гр-н - граждани^н, ин-т - институ^т). Эти слова-сокращения в блоке 23 не обрабатываются. Если слово не является сокращением, то в блоке 57 дефис исключается, при этом используются следующие правила:
- в сложных словах, образованных с помощью части основы - "пол-", в сложных прилагательных (темно-синий) и в словах с частицами то-, -либо, -нибудь, кое-, таки-, -ка, -с, склеиваются две части слова, при этом если часть слова после дефиса начинается с йотированной гласной, то дефис заменяется твердым знаком (темно-синий - темносиний, пол-яблока - полъяблока);
- в остальных случаях дефис заменяется пробелом.Codes of words containing a hyphen character from the second output of the
- in complex words formed with the help of part of the stem - “half-”, in complex adjectives (dark blue) and in words with particles something, either, something, something, so, so, two parts of the word are glued together, and if the part of the word after the hyphen begins with an iotated vowel, then the hyphen is replaced by a solid sign (dark blue - deep blue, half apple - half apple);
- in other cases, the hyphen is replaced by a space.
Далее слово поступает на четвертый блок ИЛИ 49 и обрабатывается по общим правилам. Next, the word goes to the fourth block OR 49 and is processed according to general rules.
В блоке 58 исключается знак апострофа, после чего слово обрабатывается по общим правилам. Последний встречается в словах иноязычного происхождения (а'ла, а'натюрель), задаваемых списком, в именах собственных ирландского, французского и иногда испанского происхождения после "о" и "д" (О'Хиггинс, д'Артаньян, д'Аламеда). В этих случаях разделяемые апострофом части слов склеиваются. В русских словах апостроф иногда пишут вместо разделительного твердого знака после приставок перед мягкими гласными, в этих случаях твердый знак восстанавливается. In
Блок 56 расстановки ударений работает следующим образом.
На основании ассоциированной с данным словом информации в селекторе 59 разделяются распознанные и нераспознанные слова. Based on the information associated with the given word, the recognized and unrecognized words are separated in the
Для распознанных слов обозначается ударный слог, а для нераспознанных слов предпринимается попытка определить ударение с помощью некоторых эмпирических правил. Так, например, в русском языке существительные мужского рода, в именительном падеже, оканчивающиеся на "изм", во всех словоформах имеют ударение на этом слоге (эмпириокритици^зм, бихевиори^зм и т.д.), существительные мужского рода со второй основой "лог" имеют ударение на соединительной "о" (фило^логу, стомато^лога). For recognized words, the stressed syllable is denoted, and for unrecognized words, an attempt is made to determine the stress using some rules of thumb. So, for example, in Russian, masculine nouns, in the nominative case, ending in "ism", in all word forms have an accent on this syllable (empirio-criticism ^ Зм, behaviorior ^ Зм, etc.), masculine nouns with a second base "logs" have an accent on the connective "o" (filo ^ logo, dento ^ log).
Блок 24 трансляции слов метаязыка в слова на русском алфавите работает следующим образом. В селекторе 63 разделяются слова, состоящие из различных символов различных подмножеств алфавита метаязыка.
Если слово состоит из арабских цифр, то обработка осуществляется по цепочке: первый выход селектора 63, шестой блок ИЛИ 64, блок 65. В последнем цифровая запись числа заменяется ее словесным эквивалентом. На втором выходе селектора 63 выделяются слова, состоящие из символов латинского алфавита, из которых на первом выходе селекторе 67 выделяются слова, состоящие из символов латинских цифр - {C,L,X,V,I}. В блоке 68 распознаются числа, записанные латинскими цифрами. Поскольку данные символы обозначают не только латинские цифры, но и могут встречаться в словах языков с латинской письменностью, в блоке 68 предпринимается попытка преобразовать последовательность этих символов в арабскую цифровую запись. Если сочетание этих символов не удовлетворяет правилам записи чисел латинскими цифрами, то последовательность символов рассматривается как обычное слово на латинском алфавите, передается на второй выход блока 68 и далее обрабатывается в блоке 70, как и слова, записанные латинскими буквами, но не содержащие символов, которыми обозначаются латинские цифры (второй выход блока 67). If the word consists of Arabic numbers, then the processing is carried out according to the chain: the first output of the
Если же комбинация символов удовлетворяет правилам записи латинских цифр, число преобразуется в блоке 68 в арабскую запись и через шестой блок ИЛИ 64 поступает в блок 65, где вербализуется. If the combination of characters satisfies the rules for writing Latin digits, the number is converted in
В блоке 70 слова, написанные латинскими буквами, транслируются на русский алфавит. Поскольку язык неизвестен, трансляция осуществляется по соответствующим правилам для слов латинского языка. Получается немного забавно, но понятно (windows - виндовс, "made in USA" - "мадэ ин уса"). In
Все остальные символы метаязыка { %,/,+,\ } вербализуются в блоке 71 (% - "процент", / - "дробь", + - "плюс", \ - "слэш" и т.д.). All other characters of the metalanguage {%, /, +, \} are verbalized in block 71 (% - "percent", / - "fraction", + - "plus", \ - "slash", etc.).
Мелодический контур фразы зависит от ее коммуникативного типа. В русском языке выделяют следующие типы предложений: повествовательные, вопросительные, побудительные и восклицательные. Повествовательные предложения наиболее распространены в речи, нередко значительные отрывки произведений состоят из предложений только этого вида. Восклицательные предложения имеют эмоциональную окраску. Множество форм контуров основного тона отличается большим разнообразием, и значительная часть правил управления интонацией не только не формализована, но даже и неизвестна. Поскольку основное назначение предлагаемого комплекса состоит в передаче информации, число возможных форм речевого сообщения более ограничено, чем при речевом общении между людьми. Основным коммуникативным типом предложения при передаче информации является повествовательный тип, который, как отмечалось выше, вообще является основным типом в письменной речи. Поэтому в синтезаторе не воспроизводятся интонационные особенности, отражающие второстепенные оттенки преимущественно экспрессивного характера, а множество коммуникативных типов предложений сводится к двум: повествовательным и вопросительным, четко отражаемым в графической речи знаками пунктуации. The melodic outline of a phrase depends on its communicative type. The following types of sentences are distinguished in the Russian language: narrative, interrogative, incentive, and exclamation. Narrative sentences are most common in speech, often significant passages of works consist of sentences of this type only. Exclamation sentences have an emotional tone. The many forms of the contours of the fundamental tone are very diverse, and a significant part of the rules for controlling intonation are not only not formalized, but even unknown. Since the main purpose of the proposed complex is to transmit information, the number of possible forms of voice communication is more limited than with voice communication between people. The main communicative type of sentence in the transmission of information is the narrative type, which, as noted above, is generally the main type in writing. Therefore, the synthesizer does not reproduce intonation features, reflecting secondary shades of a predominantly expressive nature, and the many communicative types of sentences come down to two: narrative and interrogative, punctuation marks clearly reflected in graphic speech.
Соответственно выделяются шесть коммуникативных типов синтагм:
- завершенность (с возможным логическим ударением) для синтагм, ограниченных знаками {.:;},
- первый тип незавершенности для синтагм, ограниченных знаком запятой,
- второй тип незавершенности для синтагм, ограниченных знаком тире,
- общий вопрос для синтагм, ограниченных знаком вопроса и не содержащих вопросительного слова,
- частный вопрос для синтагм, ограниченных знаком вопроса и содержащих вопросительное слово, на которое падает логическое ударение,
- с логическим выделением выделением для синтагм, содержащих знак логического выделения.Accordingly, six communicative types of syntagmas are distinguished:
- completeness (with possible logical stress) for syntagms limited by the signs {.:;},
- the first type of incompleteness for syntagms limited by a comma,
- the second type of incompleteness for syntagms limited by a dash,
- a general question for syntagmas limited by a question mark and not containing a question word,
- a particular question for syntagmas that are limited by a question mark and contain a question word, which falls under logical stress,
- with logical highlighting for syntagmas containing a logical highlighting sign.
Знак логического выделения может присутствовать в текстовом файле, если предварительно произведена ручная разметка текста, как это делается, например, в пособиях по художественному чтению. A logical highlight mark may be present in a text file if manual markup of the text has been previously performed, as is done, for example, in fiction books.
Блок 29 определения коммуникативного типа фраз и синтагм работает следующим образом. В селекторе 72 выделяются вопросительные фразы. Если фраза завершается знаком [?], то управление передается блоку 73, где во фразе отыскиваются вопросительные слова. Если такое слово найдено, в конце синтагмы, его содержащей, ставится знак вопроса с признаком специального вопроса, слово маркируется, а в конце фразы, если эта синтагма не последняя, ставится точка. Девятый блок ИЛИ 74 объединяет обе ветви обработки. В блоке 75 по знакам препинания, разделяющим синтагмы, и наличию вопросительного слова или знака логического выделения в синтагме определяется коммуникативный тип синтагмы.
Блок 30 определения логического ударения работает следующим образом. The logical
Логическое ударение, как уже отмечалось, не находит формального отражения в графической речи, а определяется семантикой текста. Известные методы машинного семантического анализа весьма далеки от совершенства и работают только в интерактивном режиме, поскольку понятие смысла является интуитивным и плохо формализуемым. Поэтому в синтезаторе используются упрощенные правила определения логического ударения. Logical stress, as already noted, does not find formal reflection in graphic speech, but is determined by the semantics of the text. Well-known methods of machine semantic analysis are very far from perfect and work only in an interactive mode, since the concept of meaning is intuitive and poorly formalized. Therefore, the synthesizer uses simplified rules for determining logical stress.
Селектор 76 выделяет в синтагме слова со знаком логического выделения. Если такое слово обнаружено, то никаких дополнительных действий в блоке не осуществляется, если не обнаружено, то в селекторе 78 выделяются вопросительные слова, маркированные в блоке 73. Если такое слово найдено, в блоке 82 этому слову вместо простого знака ударения приписывается знак логического ударения. Если вопросительного слова не найдено, в блоке 79 проверяются случаи, когда семантически значимые слова определяются контекстом без полного семантического анализа предложения. Таковы, например, случаи, когда употребляются сравнительные частицы: "как бы", "как будто", "словно", "точно", "не то чтобы", или усилительная частица "это", а равно и "значит" в сочетании с инфинитивом. Знаменательное слово в следующем за ним словосочетании логически выделяется. The
Если таких особых случаев не обнаружено, в блоке 80 определяется последнее знаменательное слово синтагмы, на которое и падает логическое ударение. If such special cases are not found, in
Блок 31 фонетического транскрибирования текста функционально решает следующие три задачи: устранение орфографических фикций (блок 83), преобразования буквенной записи в фонетическую (блок 84) и формирование слитной речи (блок 85).
Трансляция осуществляется путем операции подстановки Sb(W,X,Y), где вхождение Х в слово W заменяется на подслово Y. Translation is carried out by the substitution operation Sb (W, X, Y), where the occurrence of X in the word W is replaced by the subword Y.
В блоке 86 устранения орфографических фикций в окончаниях слов реализованы подстановки в соответствии с правилами пп.2,3 базы знаний: орфографические фикции в окончаниях родительного падежа единственного числа мужского и среднего рода на "-ого" и "-его" и мягкий знак на конце слов после шипящих в наречиях, существительных женского рода и инфинитиве. In
В блоке 87 исключаются непроизносимые согласные. At
В блоке 88 осуществляется транскрибирование случаев, когда фонема на письме обозначается сочетанием согласных. In block 88, transcription of cases where the phoneme on the letter is indicated by a combination of consonants is carried out.
В блоке 89 в словах с твердым произношением согласных перед "е" (в основном в словах иноязычного происхождения) "е" заменяется на "э". In
Для преобразования кодов буквенных символов в коды символов фонем (блок 84) множество согласных букв S разобьем на следующие непересекающиеся классы:
S1 = {п,б,т,д,к,г,в,ф,с,з,р,м,н,л,х} - парные по твердости-мягкости;
S2 = {Ц,Ж,Ш} - непарные твердые;
S3 = {ч,щ} - непарные мягкие;
S4 = {й}.To convert alphabetic character codes into phoneme character codes (block 84), we divide the set of consonants S into the following disjoint classes:
S 1 = {n, b, t, d, k, r, c, f, s, s, p, m, n, l, x} - paired in hardness and softness;
S 2 = {C, G, W} - unpaired solid;
S 3 = {h, uh} - unpaired soft;
S 4 = {st}.
Гласные буквы разделим на два непересекающихся класса:
G1 = {а,о,у,э,ы} - "твердые",
G2 = {я,е,ю,е,и} - "мягкие".We divide vowels into two disjoint classes:
G 1 = {a, o, y, e, s} - "solid",
G 2 = {i, e, u, e, and} - "soft."
На множество фонем выделим следующие подмножества:
ф1 - твердые согласные;
ф2 - мягкие согласные;
ф3 = {а,о,у,э,ы,и} - гласные;
ф4 = {т,с,п,ф,к,ш,х,ц,т',c',п',ф',к',ч',щ'} - шумные глухие;
ф5 = {д,з,б,в,г,ж,h,z,д',з',б',в',г',j',ж'} - шумные звонкие;
ф6 = {т,д,с,з,н} - зубные твердые;
ф7 = {т',д',с',з',н'} - зубные мягкие;
ф8 = {к,г,х} - заднеязычные твердые;
ф9 = {к',г',х'} - заднеязычные мягкие,
и зададим соответствие по глухости-звонкости отображением
φ1 : ф4 --> ф5,
а соответствие по мягкости-твердости - отображениями
φ2 : ф6 --> ф7, φ3 : ф8 --> ф9.The following subsets are distinguished on the set of phonemes:
f 1 - solid consonants;
f 2 - soft consonants;
φ 3 = {a, o, y, e, s, and} are vowels;
f 4 = {t, s, n, f, k, w, x, t, t ', c', n ', f', k ', h', u '} - noisy deaf;
f 5 = {d, s, b, c, d, f, h, z, d ', z', b ', c', r ', j', f '} - noisy voiced;
f 6 = {t, d, s, s, n} - solid dental;
f 7 = {t ', d', s', s', n '} - soft tooth;
Φ 8 = {k, r, x} - back-lingual solid;
f 9 = {k ', r', x '} - posterior soft
and set the correspondence by deafness-voicing by displaying
φ 1 : f 4 -> f 5 ,
and the correspondence in terms of softness-hardness - by mappings
φ 2 : f 6 -> f 7 , φ 3 : f 8 -> f 9 .
Блок 84 преобразования буквенной записи в фонетическую работает следующим образом.
В селекторе 90 выделяются служебные и слабоударные слова, задаваемые "списками". Служебные слова в блоке 91 теряют ударение и в блоке 92 ассимилируются со знаменательным словом. При этом служебные слова-проклитики (предлоги) "приклеиваются" к следующему слову (если это слово начинается с "мягкой" гласной, то вместо пробела ставится "ъ"). Служебные слова-энклитики (частицы) "приклеиваются" к предыдущему слову. Слово, полученное в результате композиции, через одиннадцатый блок ИЛИ 93 поступает в блок 95 и далее транскрибируется по общим правилам. The
В блоке 94 пометка ударения в слабоударных словах заменяется пометкой "слабое ударение". Все прочие слова без изменений через одиннадцатый блок ИЛИ 93 поступают на обработку в блок 95. At a
Контексты, содержащие код мягкого знака в блоке 95 транскрибируются с помощью последовательности операций контекстно-обусловленных подстановок:
- Sb(W,sь*,s'), s ∈ S1;
- Sb(W,s1ьs2,s1's2), s1∈ S1 ∪ S3, s2∈ S1;
- Sb(W,s2ьs,s2s), s2∈ S2, s ∈ S;
- Sb(W,sьg,s'й' (g)), s ∈ S1 ∪ S3, g ∈ G;
- Sb(W,sьg,sй' (g)), s ∈ S2, g ∈ G2;
где отображение α : G2 -> ф3 задано таблицей соответствия
' - знак мягкости,
* - знак, разделяющий синтагмы.Contexts containing the soft sign code in
- Sb (W, s * *, s'), s ∈ S 1 ;
- Sb (W, s 1 s 2 , s 1 's 2 ), s 1 ∈ S 1 ∪ S 3 , s 2 ∈ S 1 ;
- Sb (W, s 2 bs, s 2 s), s 2 ∈ S 2 , s ∈ S;
- Sb (W, ssg, s'y '(g)), s ∈ S 1 ∪ S 3 , g ∈ G;
- Sb (W, sьg, sй '(g)), s ∈ S 2 , g ∈ G 2 ;
where the map α: G 2 -> ф 3 is given by the correspondence table
'- a sign of softness,
* - a sign separating syntagmas.
Контексты, содержащие код твердого знака в блоке 91 транскрибируются путем подстановки
- Sb(W,sъg,s'й' α (g)), s ∈ S1\{д, т, с, з, н}, g∈G2.Contexts containing the solid sign code in
- Sb (W, s'g, s'y 'α (g)), s ∈ S 1 \ {d, t, s, s, h}, g∈G 2 .
Транскрибирование сочетаний "согласная-гласная" (СГ) осуществляется в блоке 96 путем подстановок
а отображения β и ζ заданы соответственно таблицами
Транскрибирование гласных в начале синтагмы осуществляется в блоке 97 путем подстановки
- Sb(W, *g, й′α(g)), g ∈ G2\{и}.Transcription of consonant-vowel combinations (SG) is carried out in
and the mappings β and ζ are given by the tables, respectively
Transcription of vowels at the beginning of syntagma is performed in
- Sb (W, * g, ′α (g)), g ∈ G 2 \ {and}.
Стечения "гласная-гласная" (ГГ) транскрибируются в блоке 98 путем подстановки
- Sb(W, gg2,gй′α(g2)), g ∈ G, g2∈ G2\{и}.Vowel-Vowel (GG) collisions are transcribed in
- Sb (W, gg 2 , gйα (g 2 )), g ∈ G, g 2 ∈ G 2 \ {and}.
Мягкие согласные {ч,щ} при отсутствии знака мягкости транскрибируются в блоке 99 путем подстановки
-Sb(W,s,s'), s ∈ S3.Soft consonants {h, uh} in the absence of a soft sign are transcribed in
-Sb (W, s, s'), s ∈ S 3 .
В блоке 100 учитывается свойственная современному русскому языку тенденция к озвончению шумных глухих согласных перед шумными звонкими и оглушению шумных звонких перед шумными глухими. Реализуется это путем подстановок
При сочетании более двух согласных два последних перехода осуществляются последовательно в несколько шагов.
With a combination of more than two consonants, the last two transitions are carried out sequentially in several steps.
В русском языке на месте звонких согласных на конце слова (синтагмы) произносятся соответствующие глухие. Это учитывается в блоке 101 путем соответствующих подстановок:
.In Russian, in the place of voiced consonants at the end of a word (syntagma), the corresponding deaf are pronounced. This is taken into account in
.
В блоке 102 транскрибируются двойные согласные в сочетании "твердый-мягкий" путем подстановки
-Sb(W,ss′,s′s′), s ∈ Φ1.In
-Sb (W, ss ′, s′s ′), s ∈ Φ 1 .
В блоке 103 учитывается тенденция к смягчению зубных твердых перед зубными мягкими и непарными мягкими и к смягчению заднеязычных твердых перед заднеязычными мягкими. Соответствующие подстановки:
.
.
В блоке 104 транскрибируются двойные согласные путем подстановок:
Sb(W,ss,s:), s ∈ Φ1;
Sb(W,s's',s"), s′∈ Φ2.In
Sb (W, ss, s :), s ∈ Φ 1 ;
Sb (W, s's', s "), s′∈ Φ 2 .
В русском языке гласные фонемы, выделенные в подмножество ф3, могут произноситься только в ударном слоге. В безударных слогах в русском литературном языке гласные произносятся с той или иной степенью редукции, т.е. сокращения, произносятся менее явственно, и что особенно важно - в безударных слогах некоторые гласные не различаются, совпадая друг с другом.In Russian, vowel phonemes highlighted in a subset of f 3 can be pronounced only in stressed syllable. In unstressed syllables in the Russian literary language, vowels are pronounced with varying degrees of reduction, i.e. abbreviations are pronounced less clearly, and most importantly, in unstressed syllables, some vowels do not differ, coinciding with each other.
Гласные по-разному редуцируются в обычных и слабоударных словах. Разделяются эти слова в селекторе 105 по результатам работы блока 94. Vowels are reduced in different ways in ordinary and weakly stressed words. These words are separated in the
Ударный гласный - наиболее мощный по длительности и интенсивности (из ударных гласных выделяются гласные в последнем ударном слоге синтагмы как наиболее мощные среди ударных гласных). The stressed vowel is the most powerful in duration and intensity (from the stressed vowels, the vowels in the last stressed syllable of the syntagma stand out as the most powerful among stressed vowels).
Первая степень редукции на одну ступень ниже по длительности и интенсивности и соответствует позиции гласной в первом предударном слоге, безударным позициям в конце синтагмы, в открытом конце слова, если следующее слово начинается с ударного слога, и позиции после гласной. The first degree of reduction is one step lower in duration and intensity and corresponds to the vowel position in the first pre-stressed syllable, unstressed positions at the end of the syntagma, at the open end of the word, if the next word begins with the stressed syllable, and the position after the vowel.
Вторая ступень редукции еще ниже по длительности и интенсивности и соответствует всем остальным безударным позициям. The second stage of reduction is even lower in duration and intensity and corresponds to all other unstressed positions.
Эти правила определения степени редукции реализованы в блоке 106. These rules for determining the degree of reduction are implemented in
В слабоударных словах в блоке 108 псевдоударный гласный редуцируется до первой степени редукции, а все остальные гласные, если они есть, - по общему правилу. In weakly stressed words in
Неразличимость некоторых гласных в безударных слогах учитывается в блоке 107, где редуцированные гласные первой степени редукции заменяются в соответствии со следующими правилами. The indistinguishability of some vowels in unstressed syllables is taken into account in
В позициях, соответствующих первой степени редукции, [a] и [o] произносятся как соответствующая редуцированная [и] в позиции после мягкого согласного, во всех остальных позициях - как редуцированный [a]. In the positions corresponding to the first degree of reduction, [a] and [o] are pronounced as the corresponding reduced [and] in the position after the soft consonant, in all other positions as pronounced [a].
Гласная [э] первой степени редукции заменяется на [ы] или [и] в позициях соответственно после твердой и мягкой согласных. The vowel [e] of the first degree of reduction is replaced by [s] or [and] in the positions respectively after hard and soft consonants.
В слабоударных словах псевдоударный гласный редуцированный до первой степени редукции, сохраняет качество. In weakly stressed words, a pseudo-shock vowel reduced to the first degree of reduction preserves quality.
В блоке 110 реализованы следующие правила замены редуцированных гласных второй степени редукции. In
В позициях, соответствующих второй степени редукции, гласные [о,а,э] не различаются и заменяются на [ъ] в позиции после твердой согласной и на [ь] в позиции после мягкой согласной. В русском языке [ы] может быть только в позиции после твердой согласной, а [и] - после мягкой. Замена - по тому же правилу. In the positions corresponding to the second degree of reduction, the vowels [o, a, e] do not differ and are replaced by [b] in the position after the hard consonant and by [b] in the position after the soft consonant. In Russian, [s] can only be in position after a solid consonant, and [and] after a soft one. Replacement - according to the same rule.
Произнесение звуков на границах слов различно в зависимости от того, выдерживаются между словами паузы, или слова образуют слитный речевой поток. Транскрибирование стыков слов для слитной речи осуществляется в блоке 85 в соответствии с произносительными нормами русского литературного языка. Произношение стечений звонких-глухих согласных в конце-начале слова в слитной речи аналогично произношению таких стечений на стыках морфологических частей слова, "и" в начале слова после твердой согласной в конце предыдущего слова заменяется на "ы". The pronunciation of sounds at the word boundaries is different depending on whether pauses are maintained between the words or the words form a continuous speech stream. Transcription of word joints for continuous speech is carried out in
В блоке временного процессора 32 определяются требуемые длительности элементов компиляции. Временной процессор 32 реализует следующий алгоритм. In the block of the
Длительность гласных определяется степенью редукции и фонетическим качеством гласной. Разделим множество гласных звуков на три класса, отражающих различия в их фонетическом качестве:
.The duration of the vowels is determined by the degree of reduction and the phonetic quality of the vowel. We divide the many vowel sounds into three classes, reflecting the differences in their phonetic quality:
.
Для любой гласной в фонетической записи текста определим степень выделенности n. Первая, самая низкая степень выделенности (n=1), соответствует гласным второй степени редукции, вторая (n=2) - гласным первой степени редукции, третья (n=3) - ударным гласным за исключением последнего ударного слова в синтагме, этому случаю соответствует четвертая степень выделенности (n= 4). Тогда для ∀g∈Φi, i∈{1,2,3} длительность гласной в зависимости от степени ее выделенности определяется соотношением
τi(n) = τi,0+ (n-1+[n/4])/2
где [ ] - целая часть числа, а τi,0/ - фиксированная для i-го класса константа.For any vowel in a phonetic record of text, we define the degree of highlighting n. The first, lowest degree of emphasis (n = 1) corresponds to the vowels of the second degree of reduction, the second (n = 2) - to the vowels of the first degree of reduction, the third (n = 3) - to the stressed vowel with the exception of the last stressed word in the syntagma, this case corresponds to fourth degree of isolation (n = 4). Then for ∀g∈Φ i , i∈ {1,2,3} the duration of the vowel, depending on the degree of highlighting, is determined by the relation
τ i (n) = τ i, 0 + (n-1 + [n / 4]) / 2
where [] is the integer part of the number, and τ i, 0 / is a constant fixed for the ith class.
Для ударных гласных в реальной речи существует зависимость длительности от порядкового номера в синтагме содержащего их слова (q) и числа слогов (m) в этом слове. Для гласных со степенью выделенности 3 эта зависимость невелика и ею можно пренебречь, для гласных со степенью выделенности 4 эта зависимость существенна и аппроксимируется соотношением
τi′(4) = τi,1+ 0.74(τi(4)-τi,1)(m-1)(q-1),
где τi,1 - фиксированная для i-го класса длительность.For stressed vowels in real speech, there is a dependence of the duration on the sequence number in the syntagm of the word containing them (q) and the number of syllables (m) in this word. For vowels with a degree of
τ i ′ (4) = τ i, 1 + 0.74 (τ i (4) -τ i, 1 ) (m-1) (q-1),
where τ i, 1 is the duration fixed for the ith class.
В позиции конца синтагмы гласные продлеваются независимо от степени их редукции и фонетического качества. Влияние согласных на длительность гласных учитывается лишь в наиболее ярких случаях, а именно, в позиции перед интервокальными вибрантами. В позиции перед интервокальными вибрантами и в конце синтагмы длительность любого гласного определяется дополнительными соотношениями, соответственно
где δ - фиксированная для всех гласных величина,
κ - длительность инерционного хвоста.At the end of the syntagma, vowels are extended regardless of their degree of reduction and phonetic quality. The effect of consonants on the duration of vowels is taken into account only in the most striking cases, namely, in the position in front of the intervocal vibrants. In the position in front of the intervocal vibrants and at the end of the syntagma, the duration of any vowel is determined by additional ratios, respectively
where δ is a fixed value for all vowels,
κ is the duration of the inertial tail.
При определении временных характеристик согласных учтены следующие факторы, позиции согласного относительно границ синтагмы и фонетического слова, интервокальная-неинтервокальная позиция, позиция в кластере (стечения согласных), простой-сложный состав базовых элементов компиляции, необходимых для звукового синтеза согласных. When determining the temporal characteristics of consonants, the following factors were taken into account, the positions of the consonant with respect to the boundaries of the syntagma and the phonetic word, the intervocal-non-intervocal position, the position in the cluster (consonant clusters), the simple-complex composition of the basic compilation elements necessary for sound synthesis of consonants.
Максимальную длительность согласные имеют в интервокальной позиции (в позиции между гласными). Эта длительность принимается за эталонную. Зависимость длительности согласных от сегментного окружения определена соотношением
τ = βiτ0, i∈{1,2,3,4}
где τ0 - эталонная длительность,
i=1 для позиции перед гласной (β1 = 0,8),
i=2 для позиции перед согласным (β2 = 0.6),
i= 3 для элементов компиляции, соответствующих фазе взрыва смычных согласных и вибрантам ( β3 = 1,0),
i=4 для долгих согласных ( β4 = 1,3).The consonants have the maximum duration in the intervocal position (in the position between the vowels). This duration is taken as a reference. The dependence of the duration of the consonants on the segmented environment is determined by the ratio
τ = β i τ 0 , i∈ {1,2,3,4}
where τ 0 is the reference duration,
i = 1 for the position in front of the vowel (β 1 = 0.8),
i = 2 for the position before the consonant (β 2 = 0.6),
i = 3 for compilation elements corresponding to the explosion phase of the consonant consonants and vibrants (β 3 = 1,0),
i = 4 for long consonants (β 4 = 1.3).
Мелодический процессор 33 определяет закон временного изменения частоты основного тона в пределах синтагмы. Закон этот аппроксимируется кусочно-линейной зависимостью, при этом для каждого элемента компиляции определяются значения частоты основного тона для в качестве его начальной и конечной мелодических характеристик. Значения этих характеристик квантованы по шкале музыкальных тонов и формируются слева направо слоговыми циклами, т.е. в рамках последовательности sn g, где g гласный, sn, (n≥0) - последовательность из n согласных, предшествующих гласному.The
Сегментирование синтагмы на слоговые фрагменты осуществляется в блоке 111. Это сегментирование эквивалентно итерационному решению уравнения
Сi = Sigi,1Ci+1, ∀g∈Ψg с начальными условиями С0 = С,
где gi,1 - первое вхождение любого символа гласной в фонетической записи g∈Ψg в слово Сi,
С - синтагма, рассматриваемая как слов на алфавите Ψ = Ψs∪Ψg,,
Ψg= Ψ1∪ Ψ2∪ Ψ3 - подмножество гласных,
Ψs - подмножество согласных, под i-ым слоговым фрагментом понимается композиция Sigi,1.The syntagma is segmented into syllable fragments in
С i = S i g i, 1 C i + 1 , ∀g∈Ψ g with initial conditions С 0 = С,
where g i, 1 is the first occurrence of any vowel symbol in the phonetic notation g∈Ψ g in the word С i ,
C is a syntagma considered as words in the alphabet Ψ = Ψ s ∪Ψ g ,,
Ψ g = Ψ 1 ∪ Ψ 2 ∪ Ψ 3 is a subset of vowels,
Ψ s - a subset of consonants, the i-th syllable fragment refers to the composition S i g i, 1 .
При определении мелодических характеристик элементов компиляции, входящих в текущий слог, учитываются следующие факторы: коммуникативный тип синтагмы, положение слога относительно мелодического центра контура (главноударного слога) - совпадение, слева, справа, положение слога относительно границ синтагмы, степень выделенности гласного в текущем слоге, степень выделенности гласного в предшествующем слоге, количество символьных элементов в слоге, тип символьного элемента (гласный-согласный) и его положение относительно начала слога (первый-непервый). When determining the melodic characteristics of compilation elements included in the current syllable, the following factors are taken into account: the communicative type of syntagma, the position of the syllable relative to the melodic center of the contour (main syllable syllable) - coincidence, left, right, position of the syllable relative to the boundaries of the syntagma, the degree to which the vowel is highlighted in the current syllable, the degree to which the vowel is highlighted in the previous syllable, the number of symbolic elements in the syllable, the type of symbolic element (vowel-consonant) and its position relative to the beginning of the syllable (ne first-time).
Принято, что вариации частоты основного тона составляют одну октаву относительно базового уровня Fб.It is accepted that the fundamental frequency variations are one octave relative to the base level F b .
Для коммуникативных типов синтагмы - завершенность и два вида незавершенности - выделено семь классов слогов:,
К1 - безударные слоги (n≤2),
К2 - простые ударные слои (n=3),
К3 - последний ударный слог синтагмы, не являющийся мелодическим центром (n=4),
К4 - последний ударный слог синтагмы, являющийся мелодическим центром (n=4) для синтагмы с типом завершенности,
К5 - мелодический центр, не совпадающий с последним ударным слогом (n=3) для синтагмы с типом завершенности,
К6 - мелодический центр для синтагм с первым типом незавершенности (n= 4),
К7 - мелодический центр для синтагм с первым типом незавершенности (n= 3),
К8 - мелодический центр для синтагм с вторым типом незавершенности (n= 4),
К9 - мелодический центр для синтагм с вторым типом незавершенности (n= 3).For communicative types of syntagma - completeness and two types of incompleteness - seven classes of syllables are distinguished :,
K 1 - unstressed syllables (n≤2),
K 2 - simple shock layers (n = 3),
K 3 - the last stressed syllable of the syntagma, which is not a melodic center (n = 4),
K 4 - the last stressed syllable of the syntagma, which is the melodic center (n = 4) for a syntagma with a type of completeness,
K 5 - melodic center that does not coincide with the last stressed syllable (n = 3) for a syntagma with a type of completeness,
K 6 is the melodic center for syntagmas with the first type of incompleteness (n = 4),
K 7 is the melodic center for syntagmas with the first type of incompleteness (n = 3),
K 8 is the melodic center for syntagmas with the second type of incompleteness (n = 4),
K 9 is the melodic center for syntagmas with the second type of incompleteness (n = 3).
Для каждого класса слогов задана совокупность правил, с помощью которых определяются начальные и конечные мелодические характеристики символьных элементов слога. For each class of syllables, a set of rules is specified by which the initial and final melodic characteristics of the symbolic elements of the syllable are determined.
Для класса К1 заданы 5 правил:
1) Fн = Fк = Fб для всех элементов слога.For class K 1, 5 rules are set:
1) F n = F to = F b for all elements of the syllable.
2) Понижение на полтона для первого элемента слога, далее ΔF = 0. 2) Decrease by half a tone for the first element of the syllable, then ΔF = 0.
3) Частота основного тона равномерно (в полутоновой шкале) понижается, Fк для последнего элемента слога ниже Fн первого элемента слога на пол-октавы, если текущий слог - первый из ударных слогов синтагмы, и на 3 полутона, если он - непервый.3) The frequency of the fundamental tone decreases uniformly (in a grayscale scale), F k for the last syllable element is lower than F n of the first syllable element by half an octave if the current syllable is the first of the syntagma stressed syllables, and by 3 half tones if it is not the first one.
4) Для согласных Fн = Fк = Fк предшествующего гласного, для гласного Fн = Fк предшествующего гласного, Fк на три полутона ниже Fб.4) For consonants F n = F k = F to the previous vowel, for the vowel F n = F to the previous vowel, F k three semitones below F b .
5) То же, что и 4), но для гласного Fк = Fб.5) Same as 4), but for the vowel F k = F b .
Для класса К2 заданы 5 правил:
1) Частота основного тона равномерно (в полутоновой шкале) повышается, Fк для последнего элемента слога выше Fн первого элемента слога на пол-октавы.For class K 2, 5 rules are set:
1) The frequency of the fundamental tone increases uniformly (in a grayscale scale), F k for the last syllable element is higher than F n the first syllable element by half an octave.
2) Аналогично правилу 1) для К1.2) Similar to rule 1) for K 1 .
3) Частота основного тона равномерно (в полутоновой шкале) повышается, Fк для последнего элемента слога выше Fн первого элемента слога на пол-октавы, если текущий слог - первый из ударных слогов синтагмы, и на 3 полутона, если он - непервый.3) The frequency of the fundamental tone increases uniformly (in the grayscale scale), F k for the last syllable element is higher than F n the first syllable element by half an octave if the current syllable is the first of the syntagma stressed syllables, and by 3 half tones if it is not the first one.
4) Аналогично правилу 2) для К1.4) Similar to rule 2) for K 1 .
5) Аналогично правилу 5) для К1.5) Similarly to rule 5) for K 1 .
Для класса К3 заданы 2 правила:
1) Аналогично правилу 4) для К1, но для гласных Fк на пол-октавы ниже Fб.For class K 3, 2 rules are set:
1) Similar to rule 4) for K 1 , but for vowels F k half an octave below F b .
2) Аналогично правилу 1) для К1.2) Similar to rule 1) for K 1 .
Для класса К4 заданы 2 правила:
1) Для согласных Fн = Fк = Fб,
Для гласного Fн = Fб, Fк на пол-октавы ниже Fб.For class K 4, 2 rules are set:
1) For consonants F n = F k = F b ,
For a vowel, F n = F b , F k half an octave below F b .
2) Частота основного тона равномерно (в полутоновой шкале) понижается, и для последнего элемента слога Fк на полоктавы ниже Fб.2) The frequency of the fundamental tone is uniformly (in a grayscale scale) reduced, and for the last element of the syllable F k , half an octave below F b .
Для класса К5 заданы 2 правила:
1) Для согласных
для первого Fн = Fк и на пол-октавы выше Fб,
далее Fн = Fк,
Для гласного Fн на пол-октавы выше Fб, Fк = Fб.For class K 5, 2 rules are set:
1) For consonants
for the first F n = F k and half an octave above F b ,
further F n = F to
For a vowel, F n is half an octave higher than F b , F k = F b .
2) Для согласных Fн = Fк = Fк предшествующего гласного,
для гласного Fн = Fк предшествующего элемента, Fк = Fб.2) For consonants F n = F k = F k of the preceding vowel,
for the vowel F n = F to the preceding element, F to = F b .
Для классов Кh, h ≥ 6 заданы 2 правила:
1) Для первого элемента слога Fн = Fб, далее частота основного тона равномерно (в полутоновой шкале) повышается, и для последнего элемента слога Fк на сексту выше Fб.For the classes K h , h ≥ 6, 2 rules are given:
1) For the first element of the syllable F n = F b , then the frequency of the fundamental tone evenly (in the grayscale scale) increases, and for the last element of the syllable F k a sixth higher than F b .
2) Для первого элемента слога Fн = Fк предшествующего гласного, далее частота основного тона равномерно (в полутоновой шкале) повышается, суммарное повышение составляет сексту.2) For the first element of the syllable F n = F to the previous vowel, then the frequency of the fundamental tone increases uniformly (in a grayscale scale), the total increase is sixth.
Применение вышеуказанных правил контекстно обусловлено. Зададим на множестве L слогов синтагмы отображение ξ : L --> R1, при этом ξ(l) = m, если l∈ Km, ξ(*)=0.The application of the above rules is contextually determined. We define a map ξ: L -> R 1 on the set L of syntagma syllables, and ξ (l) = m if l∈ K m , ξ (*) = 0.
Тогда условия применения вышеуказанных правил могут быть заданы матрицей , где i = ξ(l) для слога - левого контекста, j - для правого, а значение элемента аi,j соответствует номеру правила.Then the conditions for applying the above rules can be defined by the matrix , where i = ξ (l) for the syllable is the left context, j is for the right, and the value of the element a i, j corresponds to the rule number.
Для класса К1 :
а0,j = 1 для ∀j,
a2,6 = 3,
a8,j = 4, a9,j = 5 для ∀j,
ai,j = 2 всех остальных i и j.For class K 1 :
and 0, j = 1 for ∀j,
a 2.6 = 3,
a 8, j = 4, a 9, j = 5 for ∀j,
a i, j = 2 of all other i and j.
Для класса К2:
а0,j = 1 для j ∈ {1,2,4,5} и а0,j = 2 для всех остальных j,
a1,j = 3 для j ∈ {1,2,4,5},
а9,j = 5 для ∀j,
аi,j = 4 всех остальных i и j.For class K 2 :
a 0, j = 1 for j ∈ {1,2,4,5} and a 0, j = 2 for all other j,
a 1, j = 3 for j ∈ {1,2,4,5},
and 9, j = 5 for ∀j,
and i, j = 4 of all other i and j.
Для класса К3:
а7,j = 2 для ∀j,
аi,j = 1 всех остальных i и j.For class K 3 :
and 7, j = 2 for ∀j,
and i, j = 1 of all the remaining i and j.
Для класса К4:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.For class K 4 :
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.
Для класса К5:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.For class K 5 :
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.
Для классов Кh, h ≥ 6:
а0,j = 1 для ∀j,
аi,j = 2 всех остальных i и j.For classes K h , h ≥ 6:
and 0, j = 1 for ∀j,
and i, j = 2 of all the remaining i and j.
Для синтагм с коммуникативным типом "общий вопрос" выделим следующие классы слогов:
Q1 - безударные и простые ударные слоги (n≤3),
Q2 - последний ударный слог - не мелодический центр (n=4),
Q3 - мелодический центр (n=3),
Q4 - мелодический центр (n=4).For syntagms with the communicative type “general question”, we distinguish the following classes of syllables:
Q 1 - unstressed and simple stressed syllables (n≤3),
Q 2 - the last stressed syllable - not a melodic center (n = 4),
Q 3 - melodic center (n = 3),
Q 4 - melodic center (n = 4).
Для класса Q1 заданы 4 правила:
1) Для согласных Fн = Fк = Fб, для гласного Fн = Fк предшествующего элемента, а Fк на 1 полутон выше Fб.There are 4 rules for class Q 1 :
1) For consonants F n = F k = F b , for a vowel F n = F k of the preceding element, and F k 1 semitone higher than F b .
2) Для первого элемента слога Fн = Fк предшествующего гласного, а Fк на один полутон ниже, для последующих элементов ΔF=0.2) For the first element of the syllable, F n = F k of the previous vowel, and F k one semitone lower, for subsequent elements ΔF = 0.
3) Для согласных действует правило 2), для гласного Fн = Fк предшествующего звука, Fк = Fб.3) For consonants, rule 2) applies, for a vowel F n = F k of the previous sound, F k = F b .
4) Аналогично правилу 3), но для гласного Fк на пол-октавы ниже Fб.4) Similar to rule 3), but for a vowel F k half an octave below F b .
Соответственно элементы матрицы, обусловливающей применение этих правил, равны:
а0,j = 1 для ∀j,
а1,j = 2 для j ≤ 2 и а1,j = 1 для j ≥ 3,
а2,j = 2 для ∀j,
а3,j = 3 для ∀j,
a4,j = 4 для ∀j.Accordingly, the elements of the matrix determining the application of these rules are equal to:
and 0, j = 1 for ∀j,
a 1, j = 2 for j ≤ 2 and a 1, j = 1 for j ≥ 3,
and 2, j = 2 for ∀j,
and 3, j = 3 for ∀j,
a 4, j = 4 for ∀j.
Для класса Q2 действует бесконтекстное правило, аналогичное правилу 1) для Q1, но Fк на пол-октавы ниже Fб.For class Q 2 , a contextless rule is applied, similar to rule 1) for Q 1 , but F k is half an octave below F b .
Для классов Q3 и Q4 заданы 2 правила:
1) Если слог - первый в синтагме, то для первого элемента Fн = Fб, далее частота основного тона равномерно (в полутоновой шкале) повышается и для последнего элемента слога Fк на октаву выше Fб.For classes Q 3 and Q 4, 2 rules are specified:
1) If the syllable is the first in the syntagma, then for the first element F n = F b , then the frequency of the fundamental tone evenly (in a grayscale scale) increases for the last element of the syllable F k an octave above F b .
2) Если слог - не первый в синтагме, то действует правило, аналогичное 1), но для первого элемента Fн = Fк предшествующего гласного, а для последнего - Fк на октаву выше Fн первого элемента.2) If the syllable is not the first in the syntagma, then a rule similar to 1) applies, but for the first element F n = F to the previous vowel, and for the last - F k an octave higher than F n of the first element.
Для частного вопроса выделены два класса слогов Р1 - не мелодический центр и Р2 - мелодический центр.For a particular question, two classes of syllables P 1 - non-melodic center and P 2 - melodic center are distinguished.
Для класса Р1 заданы 5 правил:
1) Fн = Fк = Fб,
2) Аналогично правилу 1) для К2,
3) Аналогично правилу 2) для Q1,
4) Для первого элемента Fн = Fк предшествующего гласного, далее частота основного тона равномерно (в полутоновой шкале) понижается и для последнего элемента Fк на сексту ниже Fн первого элемента,
5) Для первого элемента Fн = Fк предшествующего гласного, Fк = Fб, для всех остальных Fн = Fк = Fб.For class P 1, 5 rules are set:
1) F n = F to = F b ,
2) Similar to rule 1) for K 2 ,
3) Similar to rule 2) for Q 1 ,
4) For the first element F n = F k of the previous vowel, then the frequency of the fundamental tone uniformly (in a grayscale scale) decreases and for the last element F k a sixth below the F n of the first element,
5) For the first element, F n = F k of the preceding vowel, F k = F b , for all other F n = F k = F b .
Правило 1) действует для слогов, находящихся левее мелодического центра, если следующий слог - также не мелодический центр, правило 2) - для слогов, непосредственно предшествующих мелодическому центру, правило 3) - для слогов правее мелодического центра (но не непосредственно за ним), правило 4) - для слога, следующего за мелодическим центром, если это - последний слог или последний ударный слог, правило 5) - для слога, следующего за мелодическим центром, если справа есть хотя бы один ударный слог. Rule 1) applies to syllables located to the left of the melodic center, if the next syllable is also not a melodic center, rule 2) - for syllables immediately preceding the melodic center, rule 3) - for syllables to the right of the melodic center (but not immediately after it), rule 4) - for the syllable following the melodic center, if this is the last syllable or last stressed syllable, rule 5) - for the syllable following the melodic center, if there is at least one stressed syllable on the right.
Для класса Р2 заданы 2 правила:
1) Для первого слога синтагмы для согласных Fн = Fк = Fб, для гласного Fн на сексту выше Fб, а Fк на три полутона выше Fб.For class P 2, 2 rules are set:
1) For the first syllable of the syntagma, for consonants F n = F k = F b , for a vowel F n sixths higher than F b , and F k three semitones above F b .
2) Для прочих контекстов для согласных Fн = Fк = Fк, предшествующего элемента, для гласного Fн = Fк предшествующего элемента, а Fк на три полутона выше Fб.2) For other contexts, for consonants F n = F k = F k , the preceding element, for a vowel F n = F k the preceding element, and F k three semitones above F b .
Для согласных в конце синтагмы Fн = Fк = Fк предшествующего гласного.For consonants at the end of the syntagma, F n = F k = F to the previous vowel.
Блок компиляции 34 работает следующим образом. В блоке 114 синтагмы обрабатываются слева направо, и для каждого текущего символа выделяются левый и правый контексты (предшествующий и последующий символы). В шифраторе 115 формируются коды элементов компиляции, соответствующих символам фонетической записи в соответствующем контексте. Код элемента компиляции представляет собой кортеж k1, k2, k3, k4>, где k1 - код текущего символьного элемента, k2 - код класса символьного элемента, k3 - код класса левого контекста и k4 - код класса правого контекста.The
По этим кодам из блока 116 акустико-сегментной базы синтеза извлекаются соответствующие элементы синтеза в виде отрезков оцифрованной речевой волны. В блоке 117 эти последовательности отсчетов преобразуются в соответствии с определенными во временном процессоре 32 и мелодическом процессоре 33 временными и частотными параметрами элементов компиляции. According to these codes, the corresponding synthesis elements in the form of segments of a digitized speech wave are extracted from
Для квазипериодических отрезков речевой волны изменение временных и частотных характеристик соответствующего элемента компиляции осуществляется путем функционального преобразования
φ(t) = Σφi(t) _→ φ′(t) = Σφj(t), i≤n0,j≤n
где φ(t) - сегмент естественной речевой волны, соответствующий текущему элементу компиляции;
φi(t) - ортогональная последовательность функций, совпадающих с φ(t) на интервале i-го квазипериода;
n0 - число квазипериодов в сегменте естественной речевой волны,
n=max(2,[τ(F(tк )+F(tн))/2] - требуемое число квазипериодов,
τ - определенная в блоке временного процессора требуемая длительность элемента компиляции;
F(tн) и F(tк) - соответственно определенные в блоке мелодического процессора начальное и конечное значения частоты основного тона.For quasiperiodic segments of the speech wave, the time and frequency characteristics of the corresponding compilation element are changed by functional transformation
φ (t) = Σφ i (t) _ → φ ′ (t) = Σφ j (t), i≤n 0 , j≤n
where φ (t) is the segment of the natural speech wave corresponding to the current compilation element;
φ i (t) is the orthogonal sequence of functions coinciding with φ (t) on the interval of the i-th quasiperiod;
n 0 is the number of quasiperiods in the segment of the natural speech wave,
n = max (2, [τ (F (t to ) + F (t n )) / 2] is the required number of quasiperiods,
τ is the required duration of the compilation element defined in the block of the temporary processor;
F (t n ) and F (t k ) - respectively, the initial and final values of the frequency of the fundamental tone defined in the block of the melodic processor.
- результат функционального преобразования φi(t), где индекс i для ∀j определяется областью истинности предиката
Функциональное преобразование определено следующим образом
где - требуемая длительность j-го квазипериода. is the result of the functional transformation φ i (t), where the index i for ∀j is determined by the region of truth of the predicate
Functional conversion defined as follows
Where - the required duration of the j-th quasiperiod.
Для шумовых отрезков речевой волны частота основного тона, естественно не меняется (для шумового сигнала такой параметр вообще отсутствует), изменяется лишь длительность путем повторения или урезания базового элемента. For noise segments of a speech wave, the frequency of the fundamental tone naturally does not change (for a noise signal, such a parameter is completely absent), only the duration changes by repeating or trimming the base element.
Как видно из вышеприведенных соотношений, при изменении длительности звука в первую очередь изменяется длительность фазы выдержки, а длительности фаз экскурсии и рекурсии по возможности сохраняются. As can be seen from the above relations, when the duration of the sound changes, the duration of the exposure phase first of all changes, and the durations of the excursion and recursion phases are preserved if possible.
В блоке композиции 118 преобразованные последовательности отсчетов, соответствующие элементам компиляции записываются последовательно одна за другой в порядке, определяемом символьной фонетической записью. In
В блоке 35 формируется звуковой файл выбранного формата, т.е. перед полученной последовательностью отсчетов формируется заголовок звукового файла. In
Блок 36 осуществляется вывод звукового файла через звуковую плату.
При реализации текстовой базы данных реализован подход, аналогичный используемому в системе Xanadu. При таком подходе берутся соответствующие документы (книги, статьи и т.д.), переводятся в электронную форму без семантических изменений и пристыковываются друг к другу, образуя одну "большую книгу". Специализированные надстройки позволяют идентифицировать любую книгу в целом и каждую ее составляющую в отдельности. Для идентификации информации в БД используются такие надстройки как список названий статей в алфавитном порядке, список авторов в алфавитном порядке, иерархический индексный указатель для имеющейся информации в виде раздела "Содержание". Такой подход гарантирует исчерпывающий доступ, но утомителен при просмотре. When implementing a text database, an approach similar to that used in the Xanadu system is implemented. With this approach, relevant documents (books, articles, etc.) are taken, translated into electronic form without semantic changes and docked to each other, forming one "big book". Specialized add-ons allow you to identify any book as a whole and each of its components separately. To identify information in the database, add-ons are used such as a list of article titles in alphabetical order, a list of authors in alphabetical order, a hierarchical index index for available information in the form of a "Contents" section. This approach guarantees comprehensive access, but tedious to browse.
Для более быстрого получения информации, релевантной запросу, используется доступ к информации через механизм ключевых слов. Механизм фильтров обеспечивает селективность, при этом фильтры могут быть заданы через ключевые слова или фильтрация может быть выполнена с указанием атрибутов документов. For faster retrieval of information relevant to the request, access to information through the mechanism of keywords is used. The filter mechanism provides selectivity, while filters can be specified through keywords or filtering can be performed with document attributes.
Интерфейс БД предусматривает диалог пользователя и ЭВМ на акустическом и тактильном уровнях. Сообщения компьютера (пункты меню и другие сообщения) дублируются речевым выходом через звуковую плату и отображаются на тактильном дисплее. Пользователь вводит информацию в ЭВМ через клавиатуру ПК в режиме "озвучивания клавиатуры" (при нажатии клавиши называется набранный символ), набранное сообщение озвучивается через синтезатор с подтверждением или неподтверждением ввода. Вводимой информацией могут являться названия статей, список ключевых слов, атрибуты фильтра (например, диапазон годов публикации - просмотреть все имеющиеся в базе публикации данного автора с такого-то по такой-то год), или составленный пользователем комментарий к документу (аннотация, предметная область, список ключевых слов и т.д.). Эта информация может как самостоятельно набираться пользователем, так и набираться зрячим оператором на индивидуальной карточке пользователя на гибком магнитном носителе. Пользователь лишь выбирает пункт меню: ввод с клавиатуры, ввод с флоппи-диска. На индивидуальной карточке также фиксируются все сеансы общения пользователя с системой, поэтому пользователь может получить быстрый доступ к информации, с которой работал ранее, но атрибуты которой забыл. С гибкого диска может также вводиться и заноситься в БД документ, кем-то ранее переведенный в электронную форму. The database interface provides a dialogue between the user and the computer at the acoustic and tactile levels. Computer messages (menu items and other messages) are duplicated by a speech output through a sound card and displayed on a tactile display. The user enters information into the computer through the PC keyboard in the "voice acting" mode (when you press a key, the typed character is called), the typed message is voiced through the synthesizer with confirmation or non-confirmation of the input. The information entered can be the names of articles, a list of keywords, filter attributes (for example, the range of publication years - see all the publications in a given author’s database from such-and-such to such-and-such year), or a comment made by the user on the document (abstract, subject area , a list of keywords, etc.). This information can be either independently typed by the user or typed by the sighted operator on an individual user card on a flexible magnetic medium. The user only selects a menu item: keyboard input, input from a floppy disk. On an individual card, all user communication sessions with the system are also recorded, so the user can get quick access to the information that he worked with earlier, but whose attributes he forgot. From a floppy disk, a document can also be entered and entered into the database by someone previously converted into electronic form.
Блок интерфейса 9 предусматривает автоматический запуск всех блоков устройства в необходимой последовательности, по завершении каждого шага пользователю выдается речевое сообщение и запрашивается подтверждение на выполнение следующего шага (нажатие одной из двух клавиш воспринимается компьютером как ответ "да" или "нет"). По завершении работы с документом управление передается интерфейсу БД для того, чтобы пользователь мог связать с документом необходимую информацию. The interface unit 9 provides for the automatic start of all device blocks in the necessary sequence, at the end of each step, the user is given a voice message and a confirmation is requested for the next step (pressing one of the two keys is perceived by the computer as the answer “yes” or “no”). Upon completion of work with the document, control is transferred to the database interface so that the user can associate the necessary information with the document.
Предлагаемое устройство позволяет незрячему или слабовидящему пользователю самостоятельно и независимо получать образование, как общее, так и профессиональное, самостоятельно и независимо осуществлять интеллектуальную и профессиональную деятельность с использованием аппаратно-программных комплексов, что позволяет решить социальную проблему профессиональной и социальной адаптации инвалидов в реальной социальной среде. При наличии предлагаемого устройства незрячий человек может составить себе информационную базу данных по своему выбору и использовать для этой цели любого вида литературу, предназначенную для зрячих пользователей, в том числе и уникальную, например, по истории музыки, сводам законов, истории, науки и т.д. Пользователь с помощью данного устройства может практически самостоятельно или при минимальном обращении к посторонним лицам получать интеллектуальное развитие, получить высшее образование и стать высококлассным профессионалом. The proposed device allows a blind or visually impaired user to independently and independently receive education, both general and professional, independently and independently carry out intellectual and professional activities using hardware and software systems, which allows to solve the social problem of the professional and social adaptation of people with disabilities in a real social environment. With the proposed device, a blind person can compile an information database of his choice and use for this purpose any kind of literature intended for sighted users, including unique ones, for example, on the history of music, codes of laws, history, science, etc. d. Using this device, the user can practically independently or with minimal use of unauthorized persons receive intellectual development, get a higher education and become a high-class professional.
Данное устройство может быть также использовано для самостоятельного и независимого изучения и совершенствования русского языка с использованием живой и/или синтезированной русской речи непосредственно с печатного или другого вида носителя информации как зрячими, так и незрячими пользователями, а также инвалидами с нарушением опорно-двигательного аппарата. This device can also be used for independent and independent study and improvement of the Russian language using live and / or synthesized Russian speech directly from a printed or other type of information carrier by both sighted and blind users, as well as people with disabilities with a violation of the musculoskeletal system.
Устройство может быть использовано для коллективного пользования в библиотеках для слепых, в школах для слепых на уроках и при проведении самостоятельного изучения материала. The device can be used for collective use in libraries for the blind, in schools for the blind in lessons and when conducting independent study of the material.
Преимущества при использовании данного устройства для изучения языка очевидны. Кроме вышеуказанных особенностей и преимуществ пользователь одновременно воспринимает визуальное воспроизведение текста и синхронное ему речевое звучание текста. Одновременное использование двух анализаторов - слухового и зрительного, позволяет резко повысить восприятие любой информации на русском языке. The benefits of using this device to learn a language are obvious. In addition to the above features and advantages, the user simultaneously perceives the visual reproduction of the text and the simultaneous speech sound of the text. The simultaneous use of two analyzers - auditory and visual, can dramatically increase the perception of any information in Russian.
Claims (29)
F : M _→ S,
где M - множество основ, определяющих лексическое значение слов русского языка;
S - множество классов флексий,
блок морфологического анализа выполнен реализующим алгоритм решения уравнения
W = Xp•X(1)•...•X(n-1)•X(n),
где W - анализируемое слово;
Xp - префикс или пустое слово;
X(1), . . ., X(n-1) - одна или несколько основ (возможно соединительной гласной на конце);
X(n) - флексия или пустое слово.6. The device according to claim 5, characterized in that the morphological analysis unit contains memory blocks for prefixes, bases and inflections, implemented in the form of a database, the relationship between which is specified by the display
F: M _ → S,
where M is the set of bases defining the lexical meaning of the words of the Russian language;
S - many classes of inflections,
morphological analysis unit is implemented implementing the algorithm for solving the equation
W = X p • X (1) • ... • X (n-1) • X (n) ,
where W is the analyzed word;
X p is the prefix or empty word;
X (1) ,. . ., X (n-1) - one or more stems (possibly a connecting vowel at the end);
X (n) - inflection or empty word.
Sb(W,у,у2) - для гласной "у" в любом контексте;
Sb(W, s'g, s'и), g∈{o,a,э}, Sb(W, sэ, sы) - для контекстов типа "согласная-гласная" ("sg" или "s'g");
Sb(W, о, а) - для всех остальных контекстов.18. The device according to p. 15, characterized in that the unit for replacing vowels of the first degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the first degree of reduction by the following substitutions:
Sb (W, y, y2) - for the vowel "y" in any context;
Sb (W, s'g, s'и), g∈ {o, a, э}, Sb (W, sе, sy) - for consonant-vowel contexts ("sg" or "s'g");
Sb (W, о, а) - for all other contexts.
Sb(W,у,у1) - для гласной "у" в любом контексте,
Sb(W,sg,sъ), g∈{o,a,э,ы} и Sb(W, s'g, s'ь), g∈{o,a,э,и} - для контекстов типа "согласная-гласная".20. The device according to p. 15, characterized in that the unit for replacing vowels of the second degree of reduction is implemented that implements an algorithm for the contextual replacement of reduced unstressed vowels of the second degree of reduction by the following substitutions:
Sb (W, y, y1) - for the vowel "y" in any context,
Sb (W, sg, sb), g∈ {o, a, e, s} and Sb (W, s'g, s'b), g∈ {o, a, e, and} - for contexts of type " consonant-vowel. "
Ψ1 = {ъ,а,а∧};
Ψ2 = {ь,и,и∧,ы,ы∧,у1,у2,у∧};
Ψ3 = {э,э∧,o,o∧},
где ^ - знак ударения, длительности гласных в зависимости от степени выделенности n определены соотношением
τi(n) = τi,0+(n-1+[n/4])/2,i∈{1,2,3},
где i - индекс класса гласной;
[a] - целая часть,
τi,0 - фиксированная для каждого класса константа, длительности гласных в зависимости от номера, содержащего их слова в синтагме (q), и числа слогов в слове (m) определены для гласных четвертой степени выделенности дополнительным соотношением
кроме того, длительность любого гласного в позиции перед интервокальными вибрантами и длительность гласных в конце синтагмы определены дополнительными соотношениями соответственно
где δ - фиксированная для всех гласных величина, ∂б - длительность итерционного хвоста, длительность согласных в зависимости от сегментного окружения и долготы согласного определена соотношением
τ = βiτ0, j∈(1,2,3,4} ,
где τ0 - эталонная длительность, соответствующая длительности в интервокальной позиции;
β1 = 0,8 для позиции после согласного перед гласным и β2 = 0,6 для позиции между согласными, при этом для элементов компиляции, соответствующих фазе взрыва смычных согласных и вибрантам β3= 1, β4 = 1,3 для долгих согласных.21. The device according to claim 3, characterized in that the time processor is implemented implementing an algorithm that sets each symbolic element of the phonetic record in accordance with a time interval that determines the duration of the corresponding sound - compilation element, while the vowels are divided into three classes that reflect differences in their phonetic quality
Ψ 1 = {b, a, a ∧ };
Ψ 2 = {b, u, and ∧ , s, s ∧ , y1, y2, y ∧ };
Ψ 3 = {e, e ∧ , o, o ∧ },
where ^ is the stress sign, the duration of the vowels depending on the degree of emphasis n is determined by the relation
τ i (n) = τ i, 0 + (n-1 + [n / 4]) / 2, i∈ {1,2,3},
where i is the vowel class index;
[a] is the integer part,
τ i, 0 is a constant fixed for each class, the duration of the vowels depending on the number containing their words in the syntagma (q), and the number of syllables in the word (m) are determined for the vowels of the fourth degree of emphasis by the additional relation
in addition, the duration of any vowel in the position in front of the intervocal vibrants and the duration of the vowels at the end of the syntagma are determined by additional ratios, respectively
where δ is a fixed value for all vowels, ∂b is the duration of the iterative tail, the duration of the consonants depending on the segment environment and the longitude of the consonant is determined by the relation
τ = β i τ 0 , j∈ (1,2,3,4},
where τ 0 is the reference duration corresponding to the duration in the intervocal position;
β 1 = 0.8 for the position after the consonant before the vowel and β 2 = 0.6 for the position between the consonants, while for compilation elements corresponding to the explosion phase of the consonant consonants and vibrants β 3 = 1, β 4 = 1.3 for long consonants.
C(i) = S(i)g(i,l)C(i+l), ∀g∈ψg,
с начальными условиями C(o) = C,
где g(i, l) - первое вхождение любого символьного элемента гласного g∈Ψg в слово C(i);
C - синтагма, рассматриваемая как слово на алфавите;
Ψ = Ψs∪ Ψg,Ψq= Ψ1∪ Ψ2∪ Ψ3 - подмножество гласных символьных элементов;
Ψs - подмножество согласных символьных элементов;
Под i-ым слоговым фрагментом понимается композиция S(i) g(i, l).23. The device according to p. 22, characterized in that the syntagma segmentation block for syllabic fragments is made implementing an iterative algorithm for solving equations
C (i) = S (i) g (i, l) C (i + l) , ∀g∈ψ g ,
with initial conditions C (o) = C,
where g (i, l) is the first occurrence of any symbolic element of the vowel g∈Ψ g in the word C (i) ;
C - syntagma, considered as a word in the alphabet;
Ψ = Ψ s ∪ Ψ g , Ψ q = Ψ 1 ∪ Ψ 2 ∪ Ψ 3 - a subset of vowel symbolic elements;
Ψ s is a subset of consonant symbolic elements;
By the i-th syllable fragment we mean the composition S (i) g (i, l) .
F(t) = Fн+(t-tн)/(tк-tн)ΔF,t∈[tн,tк];
ΔF = Fк-Fн,
где [tн, tк] - интервал длительности i-го сегмента, значения Fн и Fк квантованы по шкале музыкальных тонов, их значения определяются классом слога, положением слога относительно границ синтагмы (первый, непервый, последний), классами слогов - левого и правого контекстов, количеством сегментов в слоге, типом символьного элемента (гласный - согласный), его положением относительно начала слога (первый - непервый) и заданы таблично на допустимом подмножестве векторного произведения (K ∪ {*})⊗K⊗(K ∪{*}), где K - множество классов слогов, * - знак, разделяющий ситагмы, кроме того, для глухих щелевых и глухих аффрикант, для глухой смычки и взрыва в глухих смычных, для сегментов вокализации и паузы вибрант F(t) = const = Fmin, где Fmin - минимум частотного диапазона основного тона диктора, для звонких смычных линейное изменение частоты основного тона соответствует фазе смычки, а для фазы взрыва F(t)=Fmin.25. The device according to p. 22, characterized in that the unit for determining the parameters of the law of changing the frequency of the fundamental tone for syllable segments is implemented that implements an algorithm, each symbolic element - a syllable segment associating its initial (F n ) and final (F k ) melodic characteristics while a linear approximation of the law of changing the frequency of the fundamental tone on the interval of the duration of each segment of the syllable
F (t) = F n + (tt n ) / (t to -t n ) ΔF, t∈ [t n , t to ];
ΔF = F to -F n
where [t n , t k ] is the interval of duration of the ith segment, the values of F n and F k are quantized on the scale of musical tones, their values are determined by the class of the syllable, the position of the syllable relative to the boundaries of the syntagma (first, non-first, last), the classes of syllables - left and right contexts, the number of segments in a syllable, the type of symbolic element (vowel - consonant), its position relative to the beginning of the syllable (first - nonfirst) and are given tabular on a valid subset of the vector product (K ∪ {*}) ⊗K⊗ (K ∪ {*}), where K is the set of syllable classes, * is the sign, I share In addition, for the deaf slit and deaf afflicants, for the deaf bow and explosion in the deaf cushions, for the segments of vocalization and pause, the vibrant is F (t) = const = F min , where F min is the minimum of the frequency range of the main tone of the speaker, for Voiced sonic, a linear change in the frequency of the fundamental tone corresponds to the phase of the bow, and for the phase of the explosion F (t) = F min .
где φ(t) - сегмент естественной речевой волны, соответствующий текущему элементу компиляции φi(t) - ортогональная последовательность функций, совпадающих с φ(t) на интервале i-го квазипериода, no - число квазипериодов в сегменте естественной речевой волны, n = max(2,[τ(F(tк)+F(tн)/2] - требуемое число квазипериодов, τ - требуемая длительность элемента компиляции, F(tн) и F(tк) - соответственно заданные начальное и конечное значения частоты основного тона, при этом есть результат функционального преобразования φi(t), где индекс i для ∀j определяется областью истинности предиката
P(i)=(i=j^(n=novn>no^j≤[no/2]vn<no^j≤[n/2])v;
(i=j+no-n^n>no^j≥n-[no/2]vn<no^j≥[n/2])v;
(i=[no/2]^n>no^[n/2]<j^j<n-[no/2]),
а функциональное преобразование определено следующим образом
где - требуемая длительность j-го квазипериода.29. The device according to claim 3, characterized in that the unit for changing the time and frequency characteristics of the compilation element is made implementing a functional transformation algorithm
where φ (t) is the segment of the natural speech wave corresponding to the current compilation element φ i (t) is the orthogonal sequence of functions coinciding with φ (t) on the interval of the i-th quasiperiod, n o is the number of quasiperiods in the segment of the natural speech wave, n = max (2, [τ (F (t to ) + F (t n ) / 2] is the required number of quasiperiods, τ is the required duration of the compilation element, F (t n ) and F (t to ) are the given initial and the final value of the frequency of the fundamental tone, while is the result of the functional transformation φ i (t), where the index i for ∀j is determined by the truth domain of the predicate
P (i) = (i = j ^ (n = n o vn> n o ^ j≤ [n o / 2] vn <n o ^ j≤ [n / 2]) v;
(i = j + n o -n ^ n> n o ^ j≥n- [n o / 2] vn <n o ^ j≥ [n / 2]) v;
(i = [n o / 2] ^ n> n o ^ [n / 2] <j ^ j <n- [n o / 2]),
and functional transformation defined as follows
Where - the required duration of the j-th quasiperiod.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU96115319A RU2113726C1 (en) | 1996-08-16 | 1996-08-16 | Computer equipment for reading of printed text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU96115319A RU2113726C1 (en) | 1996-08-16 | 1996-08-16 | Computer equipment for reading of printed text |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2113726C1 true RU2113726C1 (en) | 1998-06-20 |
RU96115319A RU96115319A (en) | 1998-10-10 |
Family
ID=20183829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU96115319A RU2113726C1 (en) | 1996-08-16 | 1996-08-16 | Computer equipment for reading of printed text |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2113726C1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2460154C1 (en) * | 2011-06-15 | 2012-08-27 | Александр Юрьевич Бредихин | Method for automated text processing computer device realising said method |
RU2640322C2 (en) * | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Methods and systems of effective automatic recognition of symbols |
-
1996
- 1996-08-16 RU RU96115319A patent/RU2113726C1/en not_active IP Right Cessation
Non-Patent Citations (2)
Title |
---|
JP, выложенна я заявка, 06-012011, кл. G 06 K 9/00, 1994. JP, выложенная заявка, 06-1498 07, кл. G 10 L 3/00, 1994. * |
Петров Ю.И. Обучение взрослых слепых письму и чтению по Брайлю. - М.: ВОС , 1988, стр.3-4. BAUM Products GmbH, INKA, Version 1.0, Manual, March 1994 . Сорокин В.Н. Синтез речи. - М.: Наука, 1992. * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2460154C1 (en) * | 2011-06-15 | 2012-08-27 | Александр Юрьевич Бредихин | Method for automated text processing computer device realising said method |
RU2640322C2 (en) * | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Methods and systems of effective automatic recognition of symbols |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El-Imam | Phonetization of Arabic: rules and algorithms | |
US6275789B1 (en) | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language | |
US6490563B2 (en) | Proofreading with text to speech feedback | |
Taylor | Text-to-speech synthesis | |
US6879957B1 (en) | Method for producing a speech rendition of text from diphone sounds | |
US6098042A (en) | Homograph filter for speech synthesis system | |
JP5231698B2 (en) | How to predict how to read Japanese ideograms | |
Aida–Zade et al. | The main principles of text-to-speech synthesis system | |
RU2113726C1 (en) | Computer equipment for reading of printed text | |
El-Imam et al. | Rules and algorithms for phonetic transcription of standard Malay | |
Doush et al. | AraDaisy: A system for automatic generation of Arabic DAISY books | |
JP6998017B2 (en) | Speech synthesis data generator, speech synthesis data generation method and speech synthesis system | |
Ngugi et al. | Swahili text-to-speech system | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
Anto et al. | Text to speech synthesis system for English to Malayalam translation | |
Akmuradov et al. | Organization of Initial Text Processing in the Uzbek Language Synthesizer | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
Gibbon et al. | Spoken Language Characterization | |
Portele et al. | Adapting a TTS system to a reading machine for the blind | |
JP3029403B2 (en) | Sentence data speech conversion system | |
JP2002123281A (en) | Speech synthesizer | |
Nair et al. | English to Indian Language and Back Transliteration with Phonetic Transcription for Computational Linguistics Tools based on Conventional Transliteration Schemes | |
JP2003005776A (en) | Voice synthesizing device | |
JPH03245192A (en) | Method for determining pronunciation of foreign language word | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110817 |