SU1075300A1

SU1075300A1 - Способ слоговой компил ции речи

Info

Publication number: SU1075300A1
Application number: SU823525639A
Authority: SU
Inventors: Аркадий Пинхосович Вайншток; Александр Владимирович Книппер; Игорь Алексеевич Орлов; Владимир Георгиевич Потапов
Original assignee: Институт Проблем Передачи Информации Ан Ссср
Priority date: 1982-12-21
Filing date: 1982-12-21
Publication date: 1984-02-23

Abstract

1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна i l .i,:--#K:-J - . -V- . , 1 .Ч S ц г.,; : ...: « и ..:,.-.-ХЧ:л..; S eJits.ij Mrif лов открытых слогов типа согласный гласный и отдельных гласных фиксированной длительности, отличающийс тем, что, с целью повышени качества звучани компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков. 2. Способ по п. 1, отличающийс тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, S то длительность берут наименьшую, а если гласный, то длительность (Л берут тем бс5льшую, чем больше различи в характеристиках между типами гласных. сл 00

Description

Изобретение относитс к приборостроению и может быть использовано дл синтеза произвольного речевого сообщени . Известны способы компил ции речи из отдельных речевых элементов, которые реализуютс последовательны соединением аллофонов (частей фонем или дифонов (сочетанием отрезков, двух звуков )1 и С23. Однако указанные способы обладают тем недостатком, что при аллофон ном или дифонном синтезах речи требуютс , соответственно, или сложные программы управлени , осуществл ющие сшивание речи из аллофонов с учетом их контекстной и позиционной вариативности, или большое числ дифонов разнообразного типа, отражаюри-ix коартикул ционные св зи межд двум соседними звуками. Наиболее близким по технической сущности к изобретению вл етс спо соб слоговой компил ции речи по тексту, использующий набор заранее записанных сигналов открытых слогов типа согласный - гласный и отдельных : гласных фиксированной длительности, в котором прои;звольное сообщение фо мируют последовательным выбором и объединением слогов и отдельных звуков линейным интерполированием их параметров на посто нном временном интервале. Позиционную изменчивость звуков задают контуром основного тона и длительностью гласных и согласных звуков на основе фонети ко-просодического анализа синтезируемого текста . Однако известный способ слоговой компил ции речи не имитирует естест венные коартикул ционные св зи между соедин емыми слогами и звуками приих линейном интерполировании на посто нном временном интервале . Поэтому слогова компил ци речи, облада высокой разборчивость имеет выраженную слоговую структуру что воспринимаетс слушающими как уху шение качества звучани компилированной речи. Целью изобретени в/1 етс повышение качества звучани компилиро ванной речи. Поставленна цель достигаетс тем, что согласно способу слоговой компил ции речи по тексту, использующему набор заранее записанных сигналов открытых слогов типа согласный - гласный и отдельных гласных фиксированной длительности, перед согласными звуками слогов форми руют переходные сегменты различной длительности из последующих гласных звуков фиксированной длительности. При этом длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, причем, если этот звук согласный, то длительность берут наименьшую, а если гласный, то тем большую, чем больше различи в характеристиках между типами гласных. Более высокое качество звучани компилированной речи по предлагаемому способу объ сн етс тем, что при сшивании слогов и звуков в слитное речевое сообщение между естественными речевыми элементами формируют переходные сегменты различной длительности из гласного звука последующего слога. Эти переходные сегменты создают искусственную коартикул цию звуков, близкую к естественной, так как дл тех случаев , когда перестройка артикул торных органов человека более длительна , обеспечиваетс больша длительность переходных сегментов. Ка фиг. 1 показано формирование переходов, имитирующих коартикул цию между сшиваемыми базовыми элементами речи; на фиг. 2 - блоксхема системы, реализующей способ слоговой компи л ции речи. Различи между параметрами гласных , и1Ттерпретируемые фазовыми порт-ретами на плоскс ст х формантных частот F - р2 , рассто ние в этих пространствах. Длительность элементов речи, хран щихс в пам ти, мс. Если предшествующий звук согласный, то длительность переходного сегмента составл ет 20-30 мс, а если гласный, то 50-120 мс, т.е. длительность переходного гласного составл ет 0,1-0,4 от фиксированной длительности гласных, хран щихс в пам ти. Способ слоговой компил ции речи мсжет быть реализован в соответствии со структурной схемой, (фиг. 2К В лингвистическом процессоре 1 осуществл ю.т фонетико-просодическое преобразование текстовой записи синтезируемой речи. На выходе этого блока текст представл ют цепочкой открытых слогов и отдельных гласных звуков. Просодический анализатор задает контур основного тона и производит маркировку слогов на ударные, предударные и заударные. В блоке эмул ции эффекта коартикул ции 2 осуществл ют вставку гласных сегментов в цепочку символов с блока 1 в соответствии с предлагаемым способом . В вычислителе временных интервалов 3 формируют временные траектории параметров синтезируемого сообщени и его просодические характеристики дл дальТ1ейшего их преобразовани в речевой сигнал синтезатором 4 вокодерного типа. Базовые г

элементы, которые могут быть пред- ставлены дл экономии пам ти в параметрическом виде, хран т в блоке 5 пам ти и выэывгиот блоком 3 по мере обраэовани временных траекторий параметров синтезируемого сообщени . Громкоговоритель 6 осуществл ет преобразование речевого сигнала на выходе синтезатора 4 в акустические колебани .

Использование предлагаемого способа слоговой компил ции речи позволит повысить качество звучани синтезированной речи.

Текст

Claims

(541(571 1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна лов открытых слогов типа согласный гласный и отдельных гласных фиксированной длительности, отличающийся тем, что, с целью повышения качества звучания компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков.
2. Способ по π. 1, отличающийся тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, то длительность берут наименьшую, а если гласный, то длительность берут тем большую, чем больше различия в характеристиках между типами гласных.