SU836656A1

SU836656A1 - Способ обнаружени пауз в речевомСигНАлЕ

Info

Publication number: SU836656A1
Application number: SU792797642A
Authority: SU
Inventors: Виталий Игнатьевич Богино; Александр Михайлович Гомжин; Евгений Павлович Князев; Юрий Яковлевич Каневец; Виктор Алексеевич Тарасов
Original assignee: Ордена Ленина Институт Кибернетикиан Украинской Ccp
Priority date: 1979-07-16
Filing date: 1979-07-16
Publication date: 1981-06-07

Description

(54) СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВОМ СИГНАЛЕ

I

Изобретение относитс к области приборостроени , а именно к области акустики, и может быть использовано в кибернетике и св зи при разработк систем автоматического распознавани речевых сигналов.

Известен способ обнаружени пауз в речевом сигнале, при использовании которого паузу в речевом сигнале можно обнаружить при анализе его описани , полученного путем формировани асимметричности огибающей речевого сигнала Г Однако , во-первых, помехоустоЙ7 чивость выделени пауз в речевом сигнале по известному способу остаетс по-прежнему невысокой. Вовторых , невозможность формировани этими способами сигнала не позвол ет использовать технически легко выдел емые моменты достижени огибающей .своего нулевого уровн, в качестве признаков пауз в речевом сигнале, так как временна огибакмца

в этом случае измен ет знак на противоположный и при смене одного группового признака фонем другим.

Наиболее близким по своей технической сущности к описываемому вл етс способ обнаружени пауз в речевом сигнале, использующий коррекцию спектральных характеристик ,, речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение J.

5

Claims

Недостатком известного способа вл етс трудность создани фазовых сдвигов одновременно во всем частотном диапазоне речевого сигнала , поэтому его огибающа будет иметь информационную пол рность при наличии вречи лишь ограниченного числа групповых признаков,фонем, например только тональных или в сочетании с .сонорными, или же только шумных фонем. В остальных случа х огибающа будет иметь противоположную , помеховую пол рность. Известны способом нельз получить полную, сод%ржащую все звуки речи, помехоустойчивую временную огибающую рече вого сигнала, следовательно, некото рые паузы не могут быть надежно обн ружены на фоне маскирук цей акустиче кой помехи, спектральный состав которой вызывает по вление помеховой пол рности огибающей. Целью изобретени вл етс повыш ние надежности обнаружени пауз в р чевом сигнале. Указанна цель достигаетс тем, что в способе обнаружени пауз в речевом сигнале, использующем корре цию спектральных характеристик речё го сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детекти рование положительных и отрицательных полуволн и их алгебраическое сложение, предварительно усиленный сигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергают к компрессии, затем амплитудной коррек;1ии одновременно в нескольких ча тотньк област х, создают в них фазо вые сдвиги, раздел ют полученные си налы на положительные иотрицательные полуволны и алгебраически их ск дывают, а затем регулирующий сигнал суммируют с нелинейно преобразованным сигналом и фильтруют. В.результ те получают регулирующую величину .предварительного усилени речевого сигнала - выходную огибающую, в которой зыдел ют точки переходов чере свой нулевой уровень, определ ющие моменты по влени и исчезновени пауз в речевом сигнале,. На фиг, 1 представлена блок-схема устройства дл реализации способа; на фиг, 2 - крива разности интегралов полуволн выходного сигнала нелинейного преобразовател ; на фиг. 3 - крива соотнощени интегралов полуволн выходного сигнала операционного усилител , на фиксированной частоте; на фиг, 4 - огигбающа слова начало, произнесенного на рабочем рассто нии (15 см) от микрофона без акуст|ических помех на фиг, 5а, б - огибающа того же 64 слова, произнесенного н,а фоне речевой помехи (речь мешающего диктора, наход щегос на рассто нии 50 см от микрофона) . Дп более помехоустойчивого обнаружени пауз в речевом сигнале обес печивают минимальный коэффициент усилени входного сигнала, позвол ющий проводить его дальнейшие- преобразовани и внешнее регулирование коэффициента усилени с перекрытием не менее, чем в два раза. Производ т компрессию усиленного сигнала (например, по логарифмическому закону) дл обеспечени .динамического диапазона 42-45 дБ; производ т коррекцию спектральных характеристик компрессированного сигнала в перекрывающихс вбласт х низких (1,5-3 кГц), средних (2,5-4,5 кГц) и высоких (4-8 кГц), осуществл подъем спектральных составл ющих в указанных област х на 2,8-3,2 дБ/окт; 3-4,8 дБ/окт. и 6 дБ/окт соответственно . . Кроме того, необходимо произвести в этих област х фазовые сдвиги составл ющих {возможные их величины в пределах 15-20 ) дл получени автосимметрии сигналов, осуществить разделение сигналов этих областей на положительные и отрицательные полуволны и алгебраически просуммировать полученные полуволны, каждую со своим весовым коэффициентом (значени весовых коэффициентов подбираютс экспериментально. Предварительно усиленный речевой сигнал подвергают частотно-зависимому усилению с возрастанием амплитуды на 3 дБ/окт, Затем нелинейно преобразовывают этот сигнал. Дл этого во-первых, ось симметрии сигнала cдвшkют фиксированно на 30-35% в сторонуJ совпадающую со знаком пол рности вьщел емой автоасимметрии алгебраической суммы полуволн фазосдвинутых сигналов, Во-вторых, в меньшей полуволне производ т амплитудно-зависимое дифференцирование , осуществл , таким образом, нелиней11ое увеличение (до ч 5-6) коэффициента диспропорции (величину отношени ) интегралов большой и малой полуволн при превышении входным сигналом установленного значени . Сумр ируют нелинейно-преобразованный сигнал с алгебраической суммой полуволн фазосдвинутых сигналов. Производ т сглаживание суммарного сигнала дл получени выходной огибающей речевого сигнала. Используют выходную огибающую дл регулировани коэффициента предварительного усиле ни увеличива его при наличии информационной пол рности огибающей . Далее выдел ют точки перехода огибающей через нуль, фиксиру их как моменты по влени и исчезновени паузы. В результате проделанньк операций получают описание речевого сигнала в виде низкочастотной аналоговой функции, одна пол рность которой символизирует наличие распознаваемого речевого сообщени , момент перехода ее нулевого уровн означает по вление обнаруживаемой паузы, а друга пол рность сигналазирует о наличии акустических помех уровень которых в момент по влени паузы речевого сигнала на 7-8 дБ и более ниже уровн речи распознаваемого диктора. , Устройство (фиг. 1) содержит последовательно соединенные регулируемый предварительный усилитель 1, компрессор 2, корректирующую схему 3 с трем выходами, к каждому из которых подключена сво фазосдви гающа схема 4, 5 и 6, к выходам ко торых, в свою очередь, подключены детекторные пары 7, 8; 9, 10и 11, 12 дл разделени положительных и о рицательных полуволй. Выходы детекторов 7-12 подключаютс , каждый со своим весовым коэффициентом, к суммирующему входу операционного усили тел 13, играющего роль алгебраичес кого сумматора с интегрированием выходного сигнала. Выход операционного усилител 13 соединен со входо нуль-органа 14, вл ющимс выходом устройства, а также с управл ющим входом регулируемого предварительно го усилител 1. Кроме того, к выход регулируемого усилител подключена цепочка, состо ща из частотно-зависимого усилител 15 и нелинейного преобразовател 16,выход которого соединен со вторым, дифференциальны входом операционного усилител 13. В статике, при отсутствии речево го сигнала на выходе, выходное напр жение операционного усилител 13, а значит, и нуль-органа 14 равно ну лю, и коэффициент передачи регулируемого предварительного усилител 1 равен минимальному фиксированному значению (). Работа схемы в динамике. Речевой сигнал поступает с выхода регулируемого предварительного усилител 1 на обработку одновременно по двум каналам. В одном канале речевой сигнал выравниваетс .по амплитуде с помощью частотно-зависимого усилител 15, так как шумные высокочастотные звуки (4-8 кГц) по сравнению с полутональными (2-4 кГц) и особенно низкочастотньии (1002000 Гц) звуками имеют низкую интенсивность . После он поступает на нелинейный преобразователь 16, у которого разность интегралов К положительной и отрицательной пол рности выходного сигнала измен етс нелинейно в зависимости; от величины входного сигнала, т.е. К f () . Примерный вид этой зависимости изображен на фиг. 2. В другом канапе речевой сигнал сжимаетс компрессором 2, имеющим логарифмическую характеристику, и поступает на корректирующую схему 3, где усиливаетс в области низких частот на 3 дБ/окт; в области средних - на 6 дБ/окт; в области высоких частот на 8-9 дБ/окт. Затем сигналы этих областей подаютс на фазосдвигающие и 6 дл создани оптимальных фазовых сдвигов между гармоническими составл ющими внутри выделенных областей с целью получени максимального эффекта автоасимметрии огибающей преобразованного речевого сигнала, после чего сигнал каждой области детектируетс парами разнопол рных детекторов 7-12. Полученным полуволнам присваиваютс весовые коэффициенты и, затем они алгебраически складываютс с помощью операционного усилител 13 работающего дополнительно в режиме интегрировани выходного сигнала . На второй вход.операционного усилител I3 подаетс сигнал с выхода нелинейного преобразовател 16. В результате взаимодействи сигналов , поступающих по двум входам, выходной сигнал операционного усилител 13 измен етс по нелинейному закону в зависимости от величины входных сигналов. Например, на фиксированной частоте(4 кГц) соотношение -JP интегралов положительной jH отрицательной пол рности выходIHOTO сигнала операционного усилител 13 имеет вид, приведенный на фиг. 3. Подобного рода нелинейност объ сн етс следующим образом. При уровне входного сигнала, пр . котором речевой сигнал в канале нелинейного преобразовани еще сим метричен, а в канале создани авто асимметрии огибающей еще недостато чен дл по влени эффекта асиммет рии, выходной сигнал операционного усилител 13 равен нулю и коэффици ент передачи регулируемого предварительного усилител I равен минимальному фиксированному значению. Когда выходной сигнал нелинейного преобразовател 16 достигает 6070% от своего максимально возможного значени , он становитс несимметричен и, будучи поданным на инвертирующий вход операционного усилител I3 и име большую амплитуду по отношению к компрессирован ному сигналу, в котором начинает наблюдатьс автоасимметри , преп т ствует росту последней и удерживает выходную огибак цую операционного усилител 13 в отрицательной, помеховой пол рности. . Это происходит до тех пор, пока входной речевой Сигнал не дости гнет значени , при котором выходной сигнал нелинейного преобразовател 16 перестает увеличивать свою несимметричность (см. фиг. 2).Вследствие этого начинает преобладать сигнал автосимметрии на неинвер тирующем входе операционного усилител 13 и выходна огибающа речево сигнала изменит свою пол рность на информационную. Это, в свою очередь вызовет увеличение коэффициента передачи регулируемого предваритель ного усилител I до максимального, и как следствие, увеличение скорос-ти роста амплитуд - информационной пол рности огибающей речевого сигнала на выходе операционного усилител 13. Дальнейшее увеличение амплитуды входного речевого сигнала ведет, к нелинейному (квадратичному) росту несимметричности сигнала на вых . де нелинейного преобразовател 16. .Б результате амплитуда информационной пол рности уменьшаетс на 2530% от максимальной. По вление в речевом сигнале короткой паузы, вызванной смыканием 6 речевого тракта ц произношени II взрывных звуков ц, ч, п, т, к ведет к прохождению указанных процессов в обратном пор дке. В результате выходна огибающа речевого сигнала или возвратитс на короткое врем в помеховую пол рность, пересека свой нулевой уровень, или вернетс в исходное (нулевое) состо ние и будет находитьс там до тех пор, пока не кончитс пауза и.вновь по вившийс сигнал не выведет ее в информационную пол рность. Моменты пересечени огибающей речевого сигнала нулевого уровн фиксируютс нуль-органом 14 и на его выкоде, вл ющемс выходом устройства , по витс дискретный сигнал, характеризующий врем исчезновени и по влени пауз в речевом сигнале. Если речевой сигнал отсутствует, но имеютс различного рода, в том числе и речевые, помехи,;уровень которых на 7-8 дБ ниже уровн распознаваемой речи (в точке приема), нелинейно-преобразованный сигнал все еще больше автоасимметричного сигнала , поэтому пол рность выходного сигнала операционного усилител I3 находитс в помеховой области и выходной сигнал нуль-органа 14 отсутствует. При этом коэффициент передачи регулируемого предварительного усилител I поддерживаетс с помощью выходного сигнала операционного усилител 13 на минимальном уровне, что способствует помехоустойчивому обнаружению пауз в речевом сигнале. На фиг. 4 приведена осциллограмма огибающей слова начало, произнесенного диктором в тишине на рабочем рассто нии(15 см) от микрофона, имеющем круговую диаграмму направленности . На фиг. 5а и 56 - осциллограммы того же слова, произнесенного на фоне другого, мешающего, диктора, который находилс вне рабочей зоны оператора (на рассто нии 30 см), работающего с устройством обнаружени пауз в речевом сигнале. В приведенных осциллограммах положительна пол рность огибающей .характеризует помеховую область, отрицательна - наличие речи распознаваемого диктора. Сравнива осциллограммы, можно прийти к выводу, что устройство реагирует на мощные посторонние зву9 ки речи, имеющие уровень на 8-9 дБ ниже уровн речи распознаваемого дик тора, и правильно классифицирует их как помеху, сохран способность надежного, помехоустойчивого обнаружени пауз (в данном случае перед глухим взрывным ч) в речевом сигнале.. Эффективность предпагаемого способа обнаружени пауз в речевом сигнале заключаетс в повышении надежности вьщелзни моментор по влени фонетических, сематических и дыхательных пауз вследствие снижени на 10-13 дБ и более маскирующего действи акустических помех, когда помеха поступает на вход распознавающе системы совместно с анализируемым сигналом; снижени веро тности ложной тревоги из-за уменьшени чувствите-пьности к акустическим помехам в режиме кратковременного молчани диктора; сохранени всей информации из-за снижени порога селекции выдел емых пауз, что првьшает веро тност правильного распознавани речевой информации в целом при работе распознавак цей системы .в реальных услови х с уровнем шумов 66-70 дБ без дополнительной акустической защиты. Формула изобретени Способ обнаружени пауз в речевом сигнале, использующий коррекцию 6 спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов , сложение этого сигн an а с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение, отличающийс тем, что, с целью повышени надежности обнаружени пауз, предварительно усиленный сигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергают компрессии, затем амплитудной коррекции одновременно в нескольких частотных област х, создают в них фазовые сдвиги, раздел ют полученные сигналы на положительные и отрицательные полуволны и алгебраически их складывают , а затем результирующий сигнал суммируют с нелинейно преобразованным сигналом и фильтруют, в результате получают регулирующую величину предварительного усилени речевого сигнала-выходкую огибающую, в которой вьщел ют точки переходов через свой нулевой уровень, определ ющие моменты по влени и исчезновени пауз в речевом сигнале. Источники информации, прин тые во внимание при экспертизе 1.Патент США. № 3377428, кл. 179I 1968..
2.Авторское свидетельство СССР по за вке № 2664124/18-10, кл. G 10 L 1/04, 28.02.79.

Вход

г %ш

Фиг.2

%Ш

. Фиг.З

Фи.г.5а

Фuг.Sf