RU2700189C1

RU2700189C1 - Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума

Info

Publication number: RU2700189C1
Application number: RU2019100924A
Authority: RU
Inventors: Владимир Александрович Белогуров; Владимир Алексеевич Золотарев
Original assignee: Акционерное общество "Концерн "Созвездие"
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-09-13

Abstract

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума. Устанавливают пороговые значения для разностей фаз частотных составляющих речевых сигналов и их кратковременной энергии, обеспечивающие заданный уровень правильного обнаружения сигналов. «Скользящее окно» устанавливают так, что в нем присутствует только шум, затем его сдвигают на некоторую величину. Для каждого положения «скользящего окна» методом спектрального анализа определяют значения амплитуд, частот и фаз гармонических составляющих шума или смеси шума и сигнала. Вычитают из значений амплитуд составляющих, найденных в текущий момент времени, значения амплитуд составляющих той же частоты, найденных на предыдущем шаге. Выделяют группы гармоник по факту превышения порогового значения попарных разностей фаз гармоник. Если число групп составляющих, для которых значения их энергии превышают порог, имеет ненулевое значение, то считают, что группа с максимальной энергией является речевым сигналом. 2 ил., 1 табл.

Description

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи и в устройствах громкоговорящей связи.

Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549 H04Q 1/46. Изобретение относится к электросвязи, в частности к автоматическим средствам приема сигналов тональной сигнализации в системах многоканальной связи, и может использоваться, например, для обнаружения акустических сигналов (АС) в телефонных каналах. Функционирование основано на вычислении ряда решающих статистик, которые являются отличительными признаками при распознавании информационного АС от канальных шумов и паразитных речевых сигналов. В качестве решающих статистик используются оценка мощности сигнала в информационной полосе частот, распределение энергии входного сигнала по частотному диапазону и величина неравномерности огибающей отфильтрованного в полосовом фильтре входного сигнала. Для принятия окончательного решения о присутствии в канале связи АС используется вторичная обработка, которая основана на применении мажоритарного правила для последовательной серии первичных решений.

Недостатком известного устройства является его невысокая эффективность при решении задачи разделения речи и пауз в условиях наличия речеподобного шума (далее по тексту шума).

Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, H04B 3/46, H04Q 1/457, H04M 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах.

Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия речеподобного шума.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126, принятый за прототип.

Способ-прототип заключается в следующем.

Сигнал, поступающий в систему, дискретизируют в течение интервала времени, установленного для его анализа, и заносят в память для последующей обработки. Обрабатываемый сигнал состоит из интервала, который содержит только шум, длительность данного интервала составляет около 100 мс, и интервала, который содержит аддитивную смесь речевого сигнала и шума (в дальнейшем – смесь сигнала и шума). Под речеподобным шумом понимается акустическая помеха, у которой расстояния между фазами некоторых частотных составляющих меньше некоторого значения.

В качестве основных параметров используется число переходов через ноль в течение 10 мс и функция среднего значения, вычисленная с использованием окна длительностью 10 мс. По этим отсчетам вычисляются средние значения и дисперсии взвешенной суммы абсолютных значений амплитуд отсчетов и среднего числа переходов через ноль (статистические характеристики шума).

С учетом значений этих характеристик и максимального среднего значения вычисляются пороги для среднего числа переходов через ноль (СЧПН) и энергии сигнала. Определяется фрагмент колебаний, на котором траектория среднего значения энергии сигнала (СЗЭС) превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента.

Затем, двигаясь в обратном направлении по оси времени от момента, где среднее значение энергии сигнала впервые превысило порог, определяют момент, в котором СЗЭС впервые оказалось меньше нижнего порога (точка N₁). Этот момент выбирается в качестве предполагаемого начала. Таким же образом определяется и предполагаемое окончание слова (точка N₂).

Следующий шаг состоит в перемещении влево от точки N₁ (вправо от точки N₂) и сравнении числа переходов через ноль с порогом, вычисленным по данным начального участка. Если число переходов через ноль превышает порог в 3 или более раз, начало слова переносится туда, где кривая числа переходов через ноль впервые превысила порог. В противном случае точка N₁ считается началом слова. Аналогичный процесс осуществляется в отношении точки N₂.

Недостатком способа-прототипа является невысокая точность определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шума, в том числе при наличии речеподобного акустического шума.

Задача предлагаемого способа – повышение точности определения момента появления речевого сигнала и увеличение значения вероятности правильного решения о появлении речевого сигнала в условиях наличия внешнего акустического шума, в том числе при наличии речеподобного акустического шума.

Для решения поставленной задачи в способе разделения речи и речеподобного шума, заключающемся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, согласно изобретению, предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала;

«скользящее окно» – интервал заданной длительности, формируют так, что в нем присутствует только шум;

методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума;

смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее;

методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума;

рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна» вычитают рассчитанные значения амплитуды шума, определяют абсолютные значения полученных разностей;

рассчитывают количество превышений абсолютными значениями разностей отсчетов порога, значение которого определяют заранее, если это количество не превышает порог, то считают, что в «скользящем окне» присутствует только шум;

описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения, количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение;

в группу анализируемых составляющих включают составляющие, для которых абсолютные значения разностей отсчетов превысили порог, значения амплитуд этих составляющих равны значениям разностей отсчетов;

выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие по следующему алгоритму: рассчитывают значения попарных разностей фаз первой гармоники и остальных гармоник; в первую группу включают первую гармонику и гармоники, для которых значения разностей фаз не превышают заданное значение (пороговое значение для значения разностей фаз); затем данную процедуру повторяют для всех остальных гармоник;

если число таких групп равно нулю, то принимают решение, что присутствует только шум;

смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют;

если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом;

если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум;

если на очередном шаге порог будет превышен хотя бы для одной группы, то считают, что группа с максимальным значением кратковременной энергии гармонических составляющих является речевым сигналом;

если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением энергии является речевым сигналом;

процесс завершают, время появления сигнала устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.

Предлагаемый способ заключается в следующем.

Сигналы, поступающие с выхода электроакустического устройства (ЭАУ), прошедшие на выход фильтра низкой частоты (ФНЧ), усиленные в усилителе низкой частоты (УНЧ), дискретизируют с использованием аналого-цифрового преобразователя (АЦП) и заносят в память вычислительного устройства для последующей обработки.

Обнаружение речевого сигнала и определение положения его начала осуществляется следующим образом.

Предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала.

Значения кратковременной энергии рассчитывают, например, методом, описанным в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 113 – 114.

Данные пороговые значения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня правильного обнаружения речевых сигналов.

Формируют «скользящее окно» – интервал заданной длительности, начальное положение которого устанавливают так, что в «скользящем окне» присутствует только шум.

Длительности интервала, для которого считают, что он содержит только шум, и «скользящего окна» определяют на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз, под которым понимают обеспечение максимального значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума, при условии, что значение вероятности ложной тревоги (решение о наличии речевого сигнала при его отсутствии) будет не выше заданного уровня.

Методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума, например, путем использования способа спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, описанный в книге «Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна» - Томск: Изд. «Печатная мануфактура», 2003, с. 92-94.

Смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее.

Величину шага смещения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.

Методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума.

Рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума и определяют модули этих значений.

Рассчитывают количество превышений порога полученными абсолютными значениями разностей отсчетов. Если это количество не превышает заранее установленное пороговое значение, то считают, что в «скользящем окне» присутствует только шум.

Данное пороговое значение определяют на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.

Описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения, количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение.

Формируют группу анализируемых составляющих, в которую включают составляющие, абсолютные значения разностей отсчетов превысили порог, а их значения равны значениями разностей отсчетов.

Выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие с использованием следующего алгоритма:

– рассчитывают абсолютные значения попарных разностей фаз первой гармоники и остальных гармоник;

– в первую группу включают первую гармонику и гармоники, для которых значения попарных разностей фаз не превышают заданное значение (пороговое значение для количества разностей фаз);

– затем данную процедуру повторяют для всех оставшихся гармоник.

Иллюстративный пример, поясняющий работу алгоритма, приведен на фиг. 1.

Если число таких групп равно нулю, то принимают решение, что присутствует только шум.

Смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют.

Если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом.

Если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум.

Если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением кратковременной энергии является речевым сигналом.

Оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» не может быть получено аналитическим методом, поскольку в настоящее время отсутствуют аналитические выражения, связывающие данную величину и целевую функцию – эффективность решения задачи разделения речи и пауз.

Поэтому оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» может быть определено на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.

Далее приведены результаты моделирования процесса принятия решения о наличии речевого сигнала с использованием системы MATLAB.

Акустический шум при моделировании представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (U_pi) и фаз (ϕ_pi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам (см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. //В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004., стр. 51)

U=,

(1)

где: ω_pi – частота i-ой составляющей шума;

φ_pi – фаза i-ой составляющей шума;

– амплитуда i-ой составляющей шума;

N_sp – число гармонических составляющих шума, используемых для ее представления.

Значения фаз для составляющих шума устанавливаются так, что для любой пары гармоник разность их фаз не превышает заранее заданную величину.

Сигнал представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (U_si) и фаз (ϕ_si), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем значения фаз для составляющих сигнала устанавливаются так, что для любой пары гармоник разность их фаз не превышает заранее заданную величину.

При моделировании использовались следующие исходные данные:

– число реализаций – 10⁵;

– число составляющих сигнала – 10;

– пороговое значение для количества фаз в группе – 8;

– диапазон изменения фазы сигнала – 0.8 рад;

– диапазона изменения фазы помехи – 1.5 рад;

– амплитуда сигнала – 1;

– пороговое значение для разности фаз – 0.7 рад;

– пороговое значение для амплитуд сигнала и помехи – 0.5;

– длительность «скользящего окна» – 20 мс.

Пороговое значение для энергии составляющих группы установлено таким образом, что вероятность правильного решения о появлении речевого сигнала равна 0,995.

Усреднение осуществлялось по числу реализаций.

В таблице представлены результаты моделирования процесса определения значения вероятности принятия решения о появлении речевого сигнала при его отсутствии (вероятность ложной тревоги).

Таблица

Отношение амплитуд сигнала и помехи	Число речеподобных шумовых сигналов	Число составляющих в одном шумовом сигнале	Вероятность ложной тревоги
1	1	9	2 10^-2
		10	9 10^-2
		12	0,34
		14	0,67
	2	5	1,5 10^-2
		6	8,5 10^-2
		8	0,32
	3	4	3,5 10^-2
		5	0,12
		7	0,52
2	1	9	1 10^-4
		10	4 10^-4
		12	3 10^-3
		14	1,3 10^-2
	2	5	1 10^-4
		6	7 10^-4
		8	9 10^-3
	3	4	1,5 10^-4
		5	1,5 10^-3
		7	2,3 10^-2
3	1	8	< 10^-5
		10	< 10^-5
		12	< 10^-5
		14	< 10^-5
	2	5	< 10^-5
		6	< 10^-5
		8	< 10^-5
	3	4	< 10^-5
		5	< 10^-5
		7	1 10^-5

По результатам анализа данных, приведенных в таблице, может быть сделан вывод, что при использовании предлагаемого способа для случая, когда амплитуда сигнала превышает амплитуду помехи в 2 раза, вероятность ложной тревоги не превосходит 2,3 10^-2, для случая, когда амплитуда сигнала превышает амплитуду помехи в 3 раза, вероятность ложной тревоги не превосходит 10^-5.

Поиск оптимального значения величины, на которую уменьшают значение правой границы «скользящего окна», при расчете времени возникновения речевого сигнала, при принятии решения о его наличии, осуществлялся методом прямого перебора. При этом начальное значение величины, на которую уменьшают значение правой границы «скользящего окна», установлено равным нулю, шаг изменения данной величины установлен равным 1 мс.

При проведении оптимизационной процедуры считалось, что положение «скользящего окна» относительно момента появления речевого сигнала, случайно, закон распределения данной случайной величины – равномерный.

По результатам проведения оптимизационной процедуры получено, что при величине шага смещения «скользящего окна» – 5 мс, значение величины, на которую уменьшают значение правой границы «скользящего окна», близкое к оптимальному, составляет 8 мс, при этом средняя ошибка определения времени появления речевого сигнала составляет около ±2,5 мс.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 2, где обозначено:

1 – электроакустическое устройство (ЭАУ);

2 – фильтр нижних частот (ФНЧ);

3 – усилитель низкой частоты (УНЧ);

4 – аналого-цифровой преобразователь (АЦП);

5 – вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1, ФНЧ 2, УНЧ 3, АЦП 4, ВУ 5, выход которого является выходом заявляемого устройства, вход ЭАУ 1 является входом устройства.

Устройство работает следующим образом.

Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, фильтруют ФНЧ 2, полоса которого согласована с полосой речевого сигнала, затем шум или аддитивную смесь сигнала и шума усиливают в УНЧ 3 и подают на вход АЦП 4. Отсчеты шума или смеси сигнала и шума, образуемые в АЦП 4, в цифровом виде поступают на вход ВУ 5.

В ВУ 5, поступившие отсчеты шума или смеси сигнала и шума обрабатывают по алгоритму, приведенному выше.

Результат обработки – решение в цифровом виде о наличии или отсутствии речевого сигнала, например:

1 – сигнал присутствует;

0 –сигнал отсутствует.

На выход устройства поступает также значение времени появления речевого сигнала, в случае, когда принимают решение о наличии речевого сигнала. Методика определения времени появления речевого сигнала приведена выше.

Результаты моделирования процесса определения значения вероятности принятия решения о появлении речевого сигнала при его отсутствии (вероятность ложной тревоги) приведены в таблице.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.

УНЧ 3 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.

АЦП 4 может быть реализован, например, на микросхеме ADS8422 фирмы Texas Instruments.

Вычислительное устройство 5 может быть выполнено в виде программируемой логической интегральной схемы (ПЛИС), и реализовано, например, на микросхеме XC2V3000-6FG676I фирмы Xilinx.

Таким образом, заявляемый способ может быть осуществлен описанным устройством и позволяет с высокой эффективностью и точностью решить задачу разделения речи и пауз путем анализа значений энергии и фаз частотных составляющих речевого сигнала и шума.

Claims

Способ разделения речи и речеподобного шума, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, отличающийся тем, что предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала; «скользящее окно» – интервал заданной длительности, формируют так, что в нем присутствует только шум; методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума; смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее; методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума; рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума, определяют абсолютные значения полученных разностей; рассчитывают количество превышений абсолютными значениями разностей отсчетов порога, значение которого определяют заранее, если это количество не превышает порог, то считают, что в «скользящем окне» присутствует только шум; описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение; в группу анализируемых составляющих включают составляющие, для которых абсолютные значения разностей отсчетов превысили порог, значения амплитуд этих составляющих равны значениям разности отсчетов; выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие по следующему алгоритму: рассчитывают значения попарных разностей фаз первой гармоники и остальных гармоник; в первую группу включают первую гармонику и гармоники, для которых значения разностей фаз не превышают заданное значение – пороговое значение для значения разностей фаз; затем данную процедуру повторяют для всех остальных гармоник; если число таких групп равно нулю, то принимают решение, что присутствует только шум; смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют; если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом; если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум; смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют; если на очередном шаге порог будет превышен хотя бы для одной группы, то считают, что группа с максимальным значением кратковременной энергии гармонических составляющих является речевым сигналом; если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением энергии является речевым сигналом; процесс завершают, время появления сигнала устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.