RU2700189C1 - Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума - Google Patents

Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума Download PDF

Info

Publication number
RU2700189C1
RU2700189C1 RU2019100924A RU2019100924A RU2700189C1 RU 2700189 C1 RU2700189 C1 RU 2700189C1 RU 2019100924 A RU2019100924 A RU 2019100924A RU 2019100924 A RU2019100924 A RU 2019100924A RU 2700189 C1 RU2700189 C1 RU 2700189C1
Authority
RU
Russia
Prior art keywords
noise
value
values
speech
threshold
Prior art date
Application number
RU2019100924A
Other languages
English (en)
Inventor
Владимир Александрович Белогуров
Владимир Алексеевич Золотарев
Original Assignee
Акционерное общество "Концерн "Созвездие"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Концерн "Созвездие" filed Critical Акционерное общество "Концерн "Созвездие"
Priority to RU2019100924A priority Critical patent/RU2700189C1/ru
Application granted granted Critical
Publication of RU2700189C1 publication Critical patent/RU2700189C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Noise Elimination (AREA)

Abstract

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума. Устанавливают пороговые значения для разностей фаз частотных составляющих речевых сигналов и их кратковременной энергии, обеспечивающие заданный уровень правильного обнаружения сигналов. «Скользящее окно» устанавливают так, что в нем присутствует только шум, затем его сдвигают на некоторую величину. Для каждого положения «скользящего окна» методом спектрального анализа определяют значения амплитуд, частот и фаз гармонических составляющих шума или смеси шума и сигнала. Вычитают из значений амплитуд составляющих, найденных в текущий момент времени, значения амплитуд составляющих той же частоты, найденных на предыдущем шаге. Выделяют группы гармоник по факту превышения порогового значения попарных разностей фаз гармоник. Если число групп составляющих, для которых значения их энергии превышают порог, имеет ненулевое значение, то считают, что группа с максимальной энергией является речевым сигналом. 2 ил., 1 табл.

Description

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи и в устройствах громкоговорящей связи.
Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549 H04Q 1/46. Изобретение относится к электросвязи, в частности к автоматическим средствам приема сигналов тональной сигнализации в системах многоканальной связи, и может использоваться, например, для обнаружения акустических сигналов (АС) в телефонных каналах. Функционирование основано на вычислении ряда решающих статистик, которые являются отличительными признаками при распознавании информационного АС от канальных шумов и паразитных речевых сигналов. В качестве решающих статистик используются оценка мощности сигнала в информационной полосе частот, распределение энергии входного сигнала по частотному диапазону и величина неравномерности огибающей отфильтрованного в полосовом фильтре входного сигнала. Для принятия окончательного решения о присутствии в канале связи АС используется вторичная обработка, которая основана на применении мажоритарного правила для последовательной серии первичных решений.
Недостатком известного устройства является его невысокая эффективность при решении задачи разделения речи и пауз в условиях наличия речеподобного шума (далее по тексту шума).
Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, H04B 3/46, H04Q 1/457, H04M 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах.
Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия речеподобного шума.
Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126, принятый за прототип.
Способ-прототип заключается в следующем.
Сигнал, поступающий в систему, дискретизируют в течение интервала времени, установленного для его анализа, и заносят в память для последующей обработки. Обрабатываемый сигнал состоит из интервала, который содержит только шум, длительность данного интервала составляет около 100 мс, и интервала, который содержит аддитивную смесь речевого сигнала и шума (в дальнейшем – смесь сигнала и шума). Под речеподобным шумом понимается акустическая помеха, у которой расстояния между фазами некоторых частотных составляющих меньше некоторого значения.
В качестве основных параметров используется число переходов через ноль в течение 10 мс и функция среднего значения, вычисленная с использованием окна длительностью 10 мс. По этим отсчетам вычисляются средние значения и дисперсии взвешенной суммы абсолютных значений амплитуд отсчетов и среднего числа переходов через ноль (статистические характеристики шума).
С учетом значений этих характеристик и максимального среднего значения вычисляются пороги для среднего числа переходов через ноль (СЧПН) и энергии сигнала. Определяется фрагмент колебаний, на котором траектория среднего значения энергии сигнала (СЗЭС) превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента.
Затем, двигаясь в обратном направлении по оси времени от момента, где среднее значение энергии сигнала впервые превысило порог, определяют момент, в котором СЗЭС впервые оказалось меньше нижнего порога (точка N1). Этот момент выбирается в качестве предполагаемого начала. Таким же образом определяется и предполагаемое окончание слова (точка N2).
Следующий шаг состоит в перемещении влево от точки N1 (вправо от точки N2) и сравнении числа переходов через ноль с порогом, вычисленным по данным начального участка. Если число переходов через ноль превышает порог в 3 или более раз, начало слова переносится туда, где кривая числа переходов через ноль впервые превысила порог. В противном случае точка N1 считается началом слова. Аналогичный процесс осуществляется в отношении точки N2.
Недостатком способа-прототипа является невысокая точность определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шума, в том числе при наличии речеподобного акустического шума.
Задача предлагаемого способа – повышение точности определения момента появления речевого сигнала и увеличение значения вероятности правильного решения о появлении речевого сигнала в условиях наличия внешнего акустического шума, в том числе при наличии речеподобного акустического шума.
Для решения поставленной задачи в способе разделения речи и речеподобного шума, заключающемся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, согласно изобретению, предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала;
«скользящее окно» – интервал заданной длительности, формируют так, что в нем присутствует только шум;
методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума;
смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее;
методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума;
рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна» вычитают рассчитанные значения амплитуды шума, определяют абсолютные значения полученных разностей;
рассчитывают количество превышений абсолютными значениями разностей отсчетов порога, значение которого определяют заранее, если это количество не превышает порог, то считают, что в «скользящем окне» присутствует только шум;
описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения, количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение;
в группу анализируемых составляющих включают составляющие, для которых абсолютные значения разностей отсчетов превысили порог, значения амплитуд этих составляющих равны значениям разностей отсчетов;
выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие по следующему алгоритму: рассчитывают значения попарных разностей фаз первой гармоники и остальных гармоник; в первую группу включают первую гармонику и гармоники, для которых значения разностей фаз не превышают заданное значение (пороговое значение для значения разностей фаз); затем данную процедуру повторяют для всех остальных гармоник;
если число таких групп равно нулю, то принимают решение, что присутствует только шум;
смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют;
если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом;
если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум;
смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют;
если на очередном шаге порог будет превышен хотя бы для одной группы, то считают, что группа с максимальным значением кратковременной энергии гармонических составляющих является речевым сигналом;
если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением энергии является речевым сигналом;
процесс завершают, время появления сигнала устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
Предлагаемый способ заключается в следующем.
Сигналы, поступающие с выхода электроакустического устройства (ЭАУ), прошедшие на выход фильтра низкой частоты (ФНЧ), усиленные в усилителе низкой частоты (УНЧ), дискретизируют с использованием аналого-цифрового преобразователя (АЦП) и заносят в память вычислительного устройства для последующей обработки.
Обнаружение речевого сигнала и определение положения его начала осуществляется следующим образом.
Предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала.
Значения кратковременной энергии рассчитывают, например, методом, описанным в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 113 – 114.
Данные пороговые значения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня правильного обнаружения речевых сигналов.
Формируют «скользящее окно» – интервал заданной длительности, начальное положение которого устанавливают так, что в «скользящем окне» присутствует только шум.
Длительности интервала, для которого считают, что он содержит только шум, и «скользящего окна» определяют на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз, под которым понимают обеспечение максимального значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума, при условии, что значение вероятности ложной тревоги (решение о наличии речевого сигнала при его отсутствии) будет не выше заданного уровня.
Методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума, например, путем использования способа спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, описанный в книге «Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна» - Томск: Изд. «Печатная мануфактура», 2003, с. 92-94.
Смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее.
Величину шага смещения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума.
Рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума и определяют модули этих значений.
Рассчитывают количество превышений порога полученными абсолютными значениями разностей отсчетов. Если это количество не превышает заранее установленное пороговое значение, то считают, что в «скользящем окне» присутствует только шум.
Данное пороговое значение определяют на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения, количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение.
Формируют группу анализируемых составляющих, в которую включают составляющие, абсолютные значения разностей отсчетов превысили порог, а их значения равны значениями разностей отсчетов.
Выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие с использованием следующего алгоритма:
– рассчитывают абсолютные значения попарных разностей фаз первой гармоники и остальных гармоник;
– в первую группу включают первую гармонику и гармоники, для которых значения попарных разностей фаз не превышают заданное значение (пороговое значение для количества разностей фаз);
– затем данную процедуру повторяют для всех оставшихся гармоник.
Иллюстративный пример, поясняющий работу алгоритма, приведен на фиг. 1.
Если число таких групп равно нулю, то принимают решение, что присутствует только шум.
Смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют.
Если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом.
Если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум.
Смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют.
Если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением кратковременной энергии является речевым сигналом.
Процесс завершают, время появления сигнала устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
Оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» не может быть получено аналитическим методом, поскольку в настоящее время отсутствуют аналитические выражения, связывающие данную величину и целевую функцию – эффективность решения задачи разделения речи и пауз.
Поэтому оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» может быть определено на этапе разработки экспериментальным путем или методом математического моделирования, исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Далее приведены результаты моделирования процесса принятия решения о наличии речевого сигнала с использованием системы MATLAB.
Акустический шум при моделировании представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Upi) и фаз (ϕpi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам (см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. //В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004., стр. 51)
U=, (1)
где: ωpi – частота i-ой составляющей шума;
φpi – фаза i-ой составляющей шума;
Figure 00000001
– амплитуда i-ой составляющей шума;
Nsp – число гармонических составляющих шума, используемых для ее представления.
Значения фаз для составляющих шума устанавливаются так, что для любой пары гармоник разность их фаз не превышает заранее заданную величину.
Сигнал представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем значения фаз для составляющих сигнала устанавливаются так, что для любой пары гармоник разность их фаз не превышает заранее заданную величину.
При моделировании использовались следующие исходные данные:
– число реализаций – 105;
– число составляющих сигнала – 10;
– пороговое значение для количества фаз в группе – 8;
– диапазон изменения фазы сигнала – 0.8 рад;
– диапазона изменения фазы помехи – 1.5 рад;
– амплитуда сигнала – 1;
– пороговое значение для разности фаз – 0.7 рад;
– пороговое значение для амплитуд сигнала и помехи – 0.5;
– длительность «скользящего окна» – 20 мс.
Пороговое значение для энергии составляющих группы установлено таким образом, что вероятность правильного решения о появлении речевого сигнала равна 0,995.
Усреднение осуществлялось по числу реализаций.
В таблице представлены результаты моделирования процесса определения значения вероятности принятия решения о появлении речевого сигнала при его отсутствии (вероятность ложной тревоги).
Таблица
Отношение амплитуд сигнала и помехи Число речеподобных шумовых сигналов Число составляющих в одном шумовом сигнале Вероятность ложной тревоги
1 1 9 2 10-2
10 9 10-2
12 0,34
14 0,67
2 5 1,5 10-2
6 8,5 10-2
8 0,32
3 4 3,5 10-2
5 0,12
7 0,52
2 1 9 1 10-4
10 4 10-4
12 3 10-3
14 1,3 10-2
2 5 1 10-4
6 7 10-4
8 9 10-3
3 4 1,5 10-4
5 1,5 10-3
7 2,3 10-2
3 1 8 < 10-5
10 < 10-5
12 < 10-5
14 < 10-5
2 5 < 10-5
6 < 10-5
8 < 10-5
3 4 < 10-5
5 < 10-5
7 1 10-5
По результатам анализа данных, приведенных в таблице, может быть сделан вывод, что при использовании предлагаемого способа для случая, когда амплитуда сигнала превышает амплитуду помехи в 2 раза, вероятность ложной тревоги не превосходит 2,3 10-2, для случая, когда амплитуда сигнала превышает амплитуду помехи в 3 раза, вероятность ложной тревоги не превосходит 10-5.
Поиск оптимального значения величины, на которую уменьшают значение правой границы «скользящего окна», при расчете времени возникновения речевого сигнала, при принятии решения о его наличии, осуществлялся методом прямого перебора. При этом начальное значение величины, на которую уменьшают значение правой границы «скользящего окна», установлено равным нулю, шаг изменения данной величины установлен равным 1 мс.
При проведении оптимизационной процедуры считалось, что положение «скользящего окна» относительно момента появления речевого сигнала, случайно, закон распределения данной случайной величины – равномерный.
По результатам проведения оптимизационной процедуры получено, что при величине шага смещения «скользящего окна» – 5 мс, значение величины, на которую уменьшают значение правой границы «скользящего окна», близкое к оптимальному, составляет 8 мс, при этом средняя ошибка определения времени появления речевого сигнала составляет около ±2,5 мс.
Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 2, где обозначено:
1 – электроакустическое устройство (ЭАУ);
2 – фильтр нижних частот (ФНЧ);
3 – усилитель низкой частоты (УНЧ);
4 – аналого-цифровой преобразователь (АЦП);
5 – вычислительное устройство (ВУ).
Устройство содержит последовательно соединенные ЭАУ 1, ФНЧ 2, УНЧ 3, АЦП 4, ВУ 5, выход которого является выходом заявляемого устройства, вход ЭАУ 1 является входом устройства.
Устройство работает следующим образом.
Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, фильтруют ФНЧ 2, полоса которого согласована с полосой речевого сигнала, затем шум или аддитивную смесь сигнала и шума усиливают в УНЧ 3 и подают на вход АЦП 4. Отсчеты шума или смеси сигнала и шума, образуемые в АЦП 4, в цифровом виде поступают на вход ВУ 5.
В ВУ 5, поступившие отсчеты шума или смеси сигнала и шума обрабатывают по алгоритму, приведенному выше.
Результат обработки – решение в цифровом виде о наличии или отсутствии речевого сигнала, например:
1 – сигнал присутствует;
0 –сигнал отсутствует.
На выход устройства поступает также значение времени появления речевого сигнала, в случае, когда принимают решение о наличии речевого сигнала. Методика определения времени появления речевого сигнала приведена выше.
Результаты моделирования процесса определения значения вероятности принятия решения о появлении речевого сигнала при его отсутствии (вероятность ложной тревоги) приведены в таблице.
В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.
УНЧ 3 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.
АЦП 4 может быть реализован, например, на микросхеме ADS8422 фирмы Texas Instruments.
Вычислительное устройство 5 может быть выполнено в виде программируемой логической интегральной схемы (ПЛИС), и реализовано, например, на микросхеме XC2V3000-6FG676I фирмы Xilinx.
Таким образом, заявляемый способ может быть осуществлен описанным устройством и позволяет с высокой эффективностью и точностью решить задачу разделения речи и пауз путем анализа значений энергии и фаз частотных составляющих речевого сигнала и шума.

Claims (1)

  1. Способ разделения речи и речеподобного шума, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, отличающийся тем, что предварительно устанавливают пороговые значения для разностей фаз частотных составляющих и для кратковременной энергии речевых сигналов, обеспечивающих заданный уровень правильного обнаружения речевого сигнала; «скользящее окно» – интервал заданной длительности, формируют так, что в нем присутствует только шум; методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума; смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее; методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума или смеси сигнала и шума; рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума, определяют абсолютные значения полученных разностей; рассчитывают количество превышений абсолютными значениями разностей отсчетов порога, значение которого определяют заранее, если это количество не превышает порог, то считают, что в «скользящем окне» присутствует только шум; описанную процедуру повторяют до тех пор, пока при очередном смещении «скользящего окна» на величину шага смещения количество превышений порога рассчитанными абсолютными значениями разностей отсчетов не превысит пороговое значение; в группу анализируемых составляющих включают составляющие, для которых абсолютные значения разностей отсчетов превысили порог, значения амплитуд этих составляющих равны значениям разности отсчетов; выделяют группы гармонических составляющих из анализируемых, в которые включают составляющие по следующему алгоритму: рассчитывают значения попарных разностей фаз первой гармоники и остальных гармоник; в первую группу включают первую гармонику и гармоники, для которых значения разностей фаз не превышают заданное значение – пороговое значение для значения разностей фаз; затем данную процедуру повторяют для всех остальных гармоник; если число таких групп равно нулю, то принимают решение, что присутствует только шум; смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют; если на очередном шаге число таких групп становится больше нуля, то для каждой группы рассчитывают кратковременную энергию всех гармоник группы, из рассчитанных значений находят максимальное значение, которое сравнивают с порогом; если максимальное значение кратковременной энергии группы не превышает пороговое значение, то принимают решение, что присутствует только шум; смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют; если на очередном шаге порог будет превышен хотя бы для одной группы, то считают, что группа с максимальным значением кратковременной энергии гармонических составляющих является речевым сигналом; если на очередном шаге максимальное значение кратковременной энергии группы превышает пороговое значение, то считают, что группа гармонических составляющих с максимальным значением энергии является речевым сигналом; процесс завершают, время появления сигнала устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
RU2019100924A 2019-01-16 2019-01-16 Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума RU2700189C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2019100924A RU2700189C1 (ru) 2019-01-16 2019-01-16 Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019100924A RU2700189C1 (ru) 2019-01-16 2019-01-16 Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума

Publications (1)

Publication Number Publication Date
RU2700189C1 true RU2700189C1 (ru) 2019-09-13

Family

ID=67989618

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019100924A RU2700189C1 (ru) 2019-01-16 2019-01-16 Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума

Country Status (1)

Country Link
RU (1) RU2700189C1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU2821216C1 (ru) * 2023-12-11 2024-06-18 Акционерное общество "Концерн "Созвездие" Способ определения наличия в сигнале гармоник, длительность которых превышает установленное значение

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2171549C1 (ru) * 2000-01-26 2001-07-27 Войсковая часть 35533 Устройство для выделения акустических сигналов в каналах связи
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals
RU2214051C2 (ru) * 2001-01-22 2003-10-10 Войсковая часть 35533 Устройство для выделения тональных сигналов в каналах связи
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
US20110307251A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Sound Source Separation Using Spatial Filtering and Regularization Phases
US20150066486A1 (en) * 2013-08-28 2015-03-05 Accusonus S.A. Methods and systems for improved signal decomposition
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2171549C1 (ru) * 2000-01-26 2001-07-27 Войсковая часть 35533 Устройство для выделения акустических сигналов в каналах связи
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals
RU2214051C2 (ru) * 2001-01-22 2003-10-10 Войсковая часть 35533 Устройство для выделения тональных сигналов в каналах связи
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
US20110307251A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Sound Source Separation Using Spatial Filtering and Regularization Phases
US20150066486A1 (en) * 2013-08-28 2015-03-05 Accusonus S.A. Methods and systems for improved signal decomposition
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU2821216C1 (ru) * 2023-12-11 2024-06-18 Акционерное общество "Концерн "Созвездие" Способ определения наличия в сигнале гармоник, длительность которых превышает установленное значение

Similar Documents

Publication Publication Date Title
US4185168A (en) Method and means for adaptively filtering near-stationary noise from an information bearing signal
RU2691603C1 (ru) Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи
EP2294832B1 (en) Multi-frequency tone detector
RU2700189C1 (ru) Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума
US5353345A (en) Method and apparatus for DTMF detection
RU2680735C1 (ru) Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала
RU2668407C1 (ru) Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи
EP3681042B1 (en) Detection and tracking of interferers in a rf spectrum with multi-lane processing
Bezdel et al. Speech recognition using zero-crossing measurements and sequence information
RU2807194C1 (ru) Способ выделения речи путем анализа значений амплитуд помехи и сигнала в двухканальной системе обработки речевого сигнала
RU2786547C1 (ru) Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
Ali et al. Auditory-based speech processing based on the average localized synchrony detection
RU2723301C1 (ru) Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU2811741C1 (ru) Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи
SU656562A3 (ru) Устройство дл приема многочастотных сигналов
RU2821216C1 (ru) Способ определения наличия в сигнале гармоник, длительность которых превышает установленное значение
RU2014154081A (ru) Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
RU2814115C1 (ru) Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи
RU165287U1 (ru) Устройство шумоподавления гидроакустической станции связи
RU2774983C1 (ru) Способ автоматического обнаружения сигналов
RU2171549C1 (ru) Устройство для выделения акустических сигналов в каналах связи
CN111292748A (zh) 一种可适应多种频率的语音录入系统
RU2763480C1 (ru) Устройство для восстановления речевого сигнала
RU2214051C2 (ru) Устройство для выделения тональных сигналов в каналах связи