RU2680735C1 - Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала - Google Patents

Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала Download PDF

Info

Publication number
RU2680735C1
RU2680735C1 RU2018136230A RU2018136230A RU2680735C1 RU 2680735 C1 RU2680735 C1 RU 2680735C1 RU 2018136230 A RU2018136230 A RU 2018136230A RU 2018136230 A RU2018136230 A RU 2018136230A RU 2680735 C1 RU2680735 C1 RU 2680735C1
Authority
RU
Russia
Prior art keywords
value
noise
values
sliding window
components
Prior art date
Application number
RU2018136230A
Other languages
English (en)
Inventor
Владимир Александрович Белогуров
Владимир Алексеевич Золотарев
Original Assignee
Акционерное общество "Концерн "Созвездие"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Концерн "Созвездие" filed Critical Акционерное общество "Концерн "Созвездие"
Priority to RU2018136230A priority Critical patent/RU2680735C1/ru
Application granted granted Critical
Publication of RU2680735C1 publication Critical patent/RU2680735C1/ru
Priority to PCT/RU2019/000516 priority patent/WO2020080972A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Abstract

Изобретение относится к области техники передачи и трансляции речевой информации. Технический результат заключается в повышении точности определения момента появления и увеличении значения вероятности правильного решения о появлении речевого сигнала при наличии акустического шума. Технический результат достигается за счет способа разделения речи и пауз, при котором «скользящее окно», которое является интервалом заданной длительности, устанавливают так, что в нем присутствует только шум, затем его сдвигают на величину смещения. Методом спектрального анализа определяют значения амплитуд, частот и фаз гармонических составляющих шума или смеси шума и сигнала. Рассчитывают значения амплитуд огибающей шума для текущего положения «скользящего окна» с использованием результатов спектрального анализа из отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума, определяют общее число составляющих, для каждой гармоники определяют число значений попарных разностей фаз этой гармоники и остальных гармоник, которые не превышают заданное значение, из этих чисел определяют число с наибольшим значением. Находят отношение этого числа к общему числу гармоник. 2 ил., 2 табл.

Description

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи и в устройствах громкоговорящей связи.
Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549 H04Q 1/46. Изобретение относится к электросвязи, в частности к автоматическим средствам приема сигналов тональной сигнализации в системах многоканальной связи, и может использоваться, например, для обнаружения акустических сигналов (АС) в телефонных каналах. Функционирование основано на вычислении ряда решающих статистик, которые являются отличительными признаками при распознавании информационного АС от канальных шумов и паразитных речевых сигналов. В качестве решающих статистик используются оценка мощности сигнала в информационной полосе частот, распределение энергии входного сигнала по частотному диапазону и величина неравномерности огибающей отфильтрованного в полосовом фильтре входного сигнала. Для принятия окончательного решения о присутствии в канале связи АС используется вторичная обработка, которая основана на применении мажоритарного правила для последовательной серии первичных решений.
Недостатком известного устройства является его невысокая эффективность при решении задачи разделения речи и пауз.
Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, H04B 3/46, H04Q 1/457, H04M 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах.
Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия акустических помех.
Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126, принятый за прототип.
Способ-прототип заключается в следующем.
Сигнал, поступающий в устройство, дискретизируют в течение интервала времени, установленного для его анализа, и заносят в память для последующей обработки. Обрабатываемый сигнал состоит из интервала, который содержит только шум, длительность данного интервала составляет около 100 мс, и интервала, который содержит аддитивную смесь речевого сигнала и шума (в дальнейшем – смесь сигнала и шума).
В качестве основных параметров используется число переходов через ноль в течение 10 мс и функция среднего значения, вычисленная с использованием окна длительностью 10 мс. По этим отсчетам вычисляются средние значения и дисперсии взвешенной суммы абсолютных значений амплитуд отсчетов и среднего числа переходов через ноль (статистические характеристики шума).
С учетом значений этих характеристик и максимального среднего значения вычисляются пороги для среднего числа переходов через ноль (СЧПН) и энергии сигнала. Определяется фрагмент колебаний, на котором траектория среднего значения энергии сигнала (СЗЭС) превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента.
Затем, двигаясь в обратном направлении по оси времени от момента, где среднее значение энергии сигнала впервые превысило порог, определяют момент, в котором СЗЭС впервые оказалось меньше нижнего порога (точка N1). Этот момент выбирается в качестве предполагаемого начала. Таким же образом определяется и предполагаемое окончание слова (точка N2).
Следующий шаг состоит в перемещении влево от точки N1 (вправо от точки N2) и сравнении числа переходов через ноль с порогом, вычисленным по данным начального участка. Если число переходов через ноль превышает порог в 3 или более раз, начало слова переносится туда, где кривая числа переходов через ноль впервые превысила порог. В противном случае точка N1 считается началом слова. Аналогичный процесс осуществляется в отношении точки N2.
Недостатком способа-прототипа является недостаточно высокая точность решения задачи определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шум.
Задача предлагаемого способа – повышение точности определения момента появления речевого сигнала и увеличение значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума.
Для решения поставленной задачи в способе разделения речи и пауз, заключающемся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, согласно изобретению, «скользящее окно» – интервал заданной длительности, формируют так, что в «скользящем окне» присутствует только шум;
методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума;
смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее;
рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна», с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума;
полученные значения сравнивают с порогом, значение которого определяют заранее, если ни одно значение не превышает порог, то считают, что шум не изменился, смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют;
в противном случае с использованием значений, полученных путем вычитания из отсчетов, которые были взяты для текущего положения «скользящего окна» рассчитанных значений амплитуды шума, методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих;
определяют общее число гармонических составляющих, для каждой гармоники – число значений попарных разностей фаз этой гармоники и остальных гармоник, которые не превышают заданное значение, и определяют максимальное значение из найденных таким образом значений;
рассчитывают отношение найденного максимального значения числа гармоник, для которых значения попарных разностей фаз не превышают заданное значение, к общему числу составляющих;
сравнивают рассчитанное значение отношения максимального числа гармоник к общему числу составляющих с пороговым значением, значение которого определяют заранее;
если рассчитанное значение отношения максимального числа составляющих к их общему числу не превышает пороговое значение, то считают, что в «скользящем окне» речевой сигнал отсутствует;
в этом случае процесс обнаружения появления речевого сигнала продолжают по описанному алгоритму до того момента, когда при очередном смещении «скользящего окна» рассчитанное значение отношения максимального числа гармонических составляющих к их общему числу превысит пороговое значение, в этом случае считают, что в «скользящем окне» речевой сигнал присутствует, время его появления устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
Предлагаемый способ заключается в следующем.
Сигналы, поступающие с выхода электроакустического устройства (ЭАУ), прошедшие на выход фильтра низкой частоты (ФНЧ), усиленные в усилителе низкой частоты (УНЧ), дискретизируют с использованием аналого-цифрового преобразователя (АЦП) и заносят в память вычислительного устройства для последующей обработки.
Обнаружение речевого сигнала и определение положения его начала осуществляется следующим образом.
Формируют «скользящее окно» – интервал заданной длительности, начальное положение которого устанавливают так, что в «скользящем окне» присутствует только шум.
Длительности интервала, для которого считают, что он содержит только шум, и «скользящего окна» определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз, под которым понимают обеспечение максимального значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума, при условии, что значение вероятности ложной тревоги (решение о наличии речевого сигнала при его отсутствии) будет не выше заданного уровня.
Методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума, например, путем использования способа спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, описанный в книге «Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94.
Смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее.
Величину шага смещения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Рассчитывают значения отсчетов огибающей шума с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна» для моментов времени, в которые были взяты отсчеты для текущего положения «скользящего окна».
Из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна» вычитают рассчитанные значения отсчетов.
Полученные значения сравнивают с порогом, значение которого определяют заранее, если ни одно значение не превышает порог, то считают, что шум не изменился. Смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют.
Данное пороговое значение определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
В противном случае с использованием значений, полученных путем вычитания из отсчетов, которые были взяты для текущего положения «скользящего окна» рассчитанных значений амплитуды шума, методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих.
Определяют максимальное число гармонических составляющих, для которых разности значений фаз не превышают заданное значение по следующему алгоритму:
1. Произвольным образом нумеруют найденные гармонические составляющие;
2. Для составляющей с первым номером определяют значения разностей фаз данной составляющей и всех остальных составляющих, находят количество составляющих, для которых разности значений фаз не превышает заданное значение – Nс1;
3. Процедуру по п. 2 алгоритма повторяют для всех оставшихся составляющих;
4. Из найденных значений количества составляющих (Nсi), определяют составляющую с наибольшим значением количества составляющих.
5. Процесс завершают.
Иллюстративный пример, поясняющий работу алгоритма, приведен на фиг. 1.
Рассчитывают отношение найденного максимального значения числа гармоник к общему числу гармонических составляющих.
Сравнивают найденное значение отношения максимального числа гармонических составляющих к общему числу составляющих с пороговым значением, значение которого определяют заранее.
Данное пороговое значение и величину, значение которой не должны превышать разности фаз гармонических составляющих, определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Если рассчитанное значение отношения максимального числа гармонических составляющих к общему числу составляющих не превышает пороговое значение, то считают, что в «скользящем окне» речевой сигнал отсутствует.
В этом случае процесс обнаружения появления речевого сигнала продолжают по описанному алгоритму, а именно:
– смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее,
– методом спектрального анализа определяют значения амплитуд, частот и фаз гармонических составляющих;
– рассчитывают значения отсчетов огибающей шума с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна» для моментов времени, в которые были взяты отсчеты для текущего положения «скользящего окна»;
– из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна» вычитают рассчитанные значения отсчетов;
– полученные значения сравнивают с порогом, значение которого определяют заранее, если ни одно значение не превышает порог, то считают, что шум не изменился;
– смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют;
в противном случае с использованием значений, полученных путем вычитания из отсчетов, которые были взяты для текущего положения «скользящего окна» рассчитанных значений амплитуды шума, методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих;
– определяют максимальное число составляющих, для которых разности значений фаз не превышают заданное значение, по алгоритму, который описан выше;
– рассчитывают отношение найденного максимального значения числа гармонических составляющих к общему числу составляющих, которые определены методом спектрального анализа;
– сравнивают найденное значение отношения максимального числа гармонических составляющих к общему числу составляющих с пороговым значением, значение которого определяют заранее;
– если рассчитанное значение отношения максимального числа гармонических составляющих к общему числу составляющих не превышает пороговое значение, то считают, что в «скользящем окне» речевой сигнал отсутствует, и процесс обнаружения появления речевого сигнала продолжают по описанному алгоритму до тех пор, когда при очередном смещении «скользящего окна» рассчитанное значение отношения максимального числа гармонических составляющих к общему числу составляющих превысит пороговое значение;
– в этом случае считают, что в «скользящем окне» речевой сигнал присутствует, время его появления устанавливают равным значению правой границы «скользящего окна», уменьшенного на заранее заданную величину.
Пороговые значения определяют на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» не может быть получено аналитическим методом, поскольку в настоящее время отсутствуют аналитические выражения, связывающие данную величину и целевую функцию – эффективность решения задачи разделения речи и пауз.
Поэтому оптимальное в среднем значение величины, на которую уменьшают значение правой границы «скользящего окна» может быть определено на этапе разработки экспериментальным путем или методом математического моделирования исходя из условия обеспечения заданного уровня эффективности решения задачи разделения речи и пауз.
Далее приведены результаты моделирования процесса принятия решения о наличии речевого сигнала с использованием системы MATLAB.
Акустический шум при моделировании представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Upi) и фаз (ϕpi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам (см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. //В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004., стр. 51)
U=
Figure 00000001
, (1)
где: ωpi – частота i-ой составляющей шума;
φpi – фаза i-ой составляющей шума;
Figure 00000002
– амплитуда i-ой составляющей шума;
Nsp – число гармонических составляющих шума, используемых для ее представления.
Сигнал представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем начальные значения фаз для составляющих сигнала устанавливаются так, что для любой пары гармоник разность их фаз не превышает заранее заданную величину.
При моделировании использовались следующие исходные данные:
– число реализаций – 106;
– длительность интервала, где присутствует только шум – 1000 мс;
– длительность «скользящего окна» – 15 мс;
– величина шага смещения «скользящего окна» – 5 мс.
Усреднение осуществлялось по числу реализаций.
В таблице 1 представлены результаты моделирования процесса определения значения вероятности принятия решения о появлении речевого сигнала при его отсутствии за одно смещение «скользящего окна» (Рлт1).
Таблица 1
Nпо Rф, % Число частотных составляющих шума
2 5 10 20 30 40
0,7 10 <10-6 1,4⋅10-3 2,2⋅10-5 <10-6 <10-6 <10-6
20 10-6 1,9⋅10-2 2,6⋅10-3 4,1⋅10-4 6,8⋅10-5 <10-6
0,8 10 <10-6 <10-6 2⋅10-6 <10-6 <10-6 <10-6
20 <10-6 <10-6 1,7⋅10-4 6⋅10-6 <10-6 <10-6
В таблице 1 использованы следующие обозначения:
Nпо – пороговое значение отношения максимального числа гармонических составляющих к общему числу составляющих;
Rф – величина разности фаз, которую не должны превышать разности фаз гармонических составляющих, в процентах от величины диапазона изменения фаз.
Вероятность принятия решения о появлении речевого сигнала при его отсутствии за 200 шагов смещения «скользящего окна» рассчитана по формуле (при величине шага смещения «скользящего окна» 5 мс общая длительность двухсот шагов составляет 1 с)
Рлт=1-(1- Рлт1)200, (2)
где Рлт1 – вероятность принятия решения о появлении речевого сигнала при его отсутствии за одно смещение «скользящего окна».
Результаты расчета значения вероятности принятия решения о появлении речевого сигнала при его отсутствии за 200 шагов смещения «скользящего окна» представлены в таблице 2.
Таблица 2
Nпо Rф, % Число гармонических составляющих шума
2 5 10 20 30 40
0,7 10 2⋅10-4 0,75 5⋅10-3 2⋅10-4 2⋅10-4 2⋅10-4
20 2⋅10-4 0,98 0,41 8⋅10-2 1,4⋅10-2 2⋅10-4
0,8 10 2⋅10-4 2⋅10-4 4⋅10-4 2⋅10-4 2⋅10-4 2⋅10-4
20 2⋅10-4 2⋅10-4 3,3⋅10-2 1⋅10-3 2⋅10-4 2⋅10-4
В таблице 2 использованы те же обозначения, что и в таблице 1.
Из анализа данных, приведенных в таблице 2, следует, что при величине разности фаз, которую не должны превышать разности фаз гармонических составляющих 10% от диапазона изменения фазы, и пороговым значением отношения максимального числа гармонических составляющих к общему числу составляющих равным 0,8, вероятность ложной тревоги не превышает 4⋅10-4 для любого числа гармонических составляющих шума за время анализа равного 1 секунде.
Поскольку при моделировании начальные значения фаз для составляющих сигнала устанавливают так, что разность их фаз не превышает заранее заданную величину, в данном случае 10% от диапазона изменения фазы, то значение вероятности правильного принятия решения о появлении речевого сигнала при его наличии равна 1.
Поиск оптимального значения величины, на которую уменьшают значение правой границы «скользящего окна», при расчете времени возникновения речевого сигнала, при принятии решения о его наличии, осуществлялся методом прямого перебора. При этом начальное значение величины, на которую уменьшают значение правой границы «скользящего окна», установлено равным нулю, шаг изменения данной величины установлен равным 1 мс.
При проведении оптимизационной процедуры считалось, что положение «скользящего окна» относительно момента появления речевого сигнала, случайно, закон распределения данной случайной величины – равномерный.
По результатам проведения оптимизационной процедуры получено, что при величине шага смещения «скользящего окна» – 5 мс, значение величины, на которую уменьшают значение правой границы «скользящего окна», близкое к оптимальному, составляет 8 мс, при этом средняя ошибка определения времени появления речевого сигнала составляет около ±2,5 мс.
Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 2, где обозначено:
1 – электроакустическое устройство (ЭАУ);
2 – фильтр нижних частот (ФНЧ);
3 – усилитель низкой частоты (УНЧ);
4 – аналого-цифровой преобразователь (АЦП);
5 – вычислительное устройство (ВУ).
Устройство содержит последовательно соединенные ЭАУ 1, ФНЧ 2, УНЧ 3, АЦП 4, ВУ 5, выход которого является выходом заявляемого устройства, вход ЭАУ 1 является входом устройства.
Устройство работает следующим образом.
Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, фильтруют ФНЧ 2, полоса которого согласована с полосой речевого сигнала, затем шум или аддитивную смесь сигнала и шума усиливают в УНЧ 3 и подают на вход АЦП 4. Отсчеты шума или смеси сигнала и шума, которые формируют в АЦП 4, в цифровом виде поступают на вход ВУ 5.
В ВУ 5, поступившие отсчеты шума или смеси сигнала и шума обрабатывают по алгоритму, приведенному выше.
Результат обработки – решение в цифровом виде о наличии или отсутствии речевого сигнала, например:
1 – сигнал присутствует;
0 –сигнал отсутствует.
На выход устройства поступает также значение времени появления речевого сигнала, в случае, когда принимают решение о наличии речевого сигнала. Методика определения времени появления речевого сигнала приведена выше.
Результаты моделирования процесса обнаружения речевого сигнала и определения точности положения речевого сигнала в зависимости от числа частотных составляющих шума, порогового значения отношения максимального числа гармонических составляющих к общему числу составляющих и величины разности фаз, которую не должны превышать разности фаз гармонических составляющих, приведены в таблицах 1 и 2 соответственно.
В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.
УНЧ 3 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.
АЦП 4 может быть реализован, например, на микросхеме ADS8422 фирмы Texas Instruments.
Вычислительное устройство 5 может быть выполнено в виде программируемой логической интегральной схемы (ПЛИС), и реализовано, например, на микросхеме XC2V3000-6FG676I фирмы Xilinx.
Таким образом, заявляемый способ может быть реализован описанным устройством и позволяет с высокой эффективностью решить задачу разделения речи и пауз путем сравнения с пороговым значением рассчитанного значения отношения максимального числа гармонических составляющих сигнала или шума, для которых разности значений фаз не превышают заданное значение, и общего числа составляющих сигнала или шума.

Claims (1)

  1. Способ разделения речи и пауз, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и шума, шум или смесь речевого сигнала и шума, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, отличающийся тем, что «скользящее окно» – интервал заданной длительности, формируют так, что в «скользящем окне» присутствует только шум; методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих шума; смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее; рассчитывают значения отсчетов огибающей шума для текущего положения «скользящего окна» с использованием результатов спектрального анализа, который был проведен для предыдущего положения «скользящего окна», из последовательности отсчетов, которые были взяты для текущего положения «скользящего окна», вычитают рассчитанные значения амплитуды шума; полученные значения сравнивают с порогом, значение которого определяют заранее, если ни одно значение не превышает порог, то считают, что шум не изменился, смещают «скользящее окно» на величину шага смещения и описанную процедуру повторяют; в противном случае с использованием значений, полученных путем вычитания из отсчетов, которые были взяты для текущего положения «скользящего окна» рассчитанных значений амплитуды шума, методом спектрального анализа определяют значения частот, фаз и амплитуд гармонических составляющих; определяют общее число гармонических составляющих, для каждой гармоники – число значений попарных разностей фаз этой гармоники и остальных гармоник, которые не превышают заданное значение, и определяют максимальное значение из найденных таким образом значений; рассчитывают отношение найденного максимального значения числа гармоник, для которых значения попарных разностей фаз не превышают заданное значение, к общему числу составляющих; сравнивают рассчитанное значение отношения максимального числа гармоник к общему числу составляющих с пороговым значением, значение которого определяют заранее; если рассчитанное значение отношения максимального числа составляющих к их общему числу не превышает пороговое значение, то считают, что в «скользящем окне» речевой сигнал отсутствует; в этом случае процесс обнаружения появления речевого сигнала продолжают по описанному алгоритму до того момента, когда при очередном смещении «скользящего окна» рассчитанное значение отношения максимального числа гармонических составляющих к их общему числу превысит пороговое значение, в этом случае считают, что в «скользящем окне» речевой сигнал присутствует, время его появления устанавливают равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
RU2018136230A 2018-10-15 2018-10-15 Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала RU2680735C1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2018136230A RU2680735C1 (ru) 2018-10-15 2018-10-15 Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала
PCT/RU2019/000516 WO2020080972A1 (en) 2018-10-15 2019-07-23 Method of speech separation and pauses

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018136230A RU2680735C1 (ru) 2018-10-15 2018-10-15 Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала

Publications (1)

Publication Number Publication Date
RU2680735C1 true RU2680735C1 (ru) 2019-02-26

Family

ID=65479270

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018136230A RU2680735C1 (ru) 2018-10-15 2018-10-15 Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала

Country Status (2)

Country Link
RU (1) RU2680735C1 (ru)
WO (1) WO2020080972A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2786547C1 (ru) * 2022-04-05 2022-12-22 Акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319736A (en) * 1989-12-06 1994-06-07 National Research Council Of Canada System for separating speech from background noise
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
US20110307251A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Sound Source Separation Using Spatial Filtering and Regularization Phases
US20150066486A1 (en) * 2013-08-28 2015-03-05 Accusonus S.A. Methods and systems for improved signal decomposition
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013166439A1 (en) * 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5319736A (en) * 1989-12-06 1994-06-07 National Research Council Of Canada System for separating speech from background noise
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals
US20070021958A1 (en) * 2005-07-22 2007-01-25 Erik Visser Robust separation of speech signals in a noisy environment
US20110307251A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Sound Source Separation Using Spatial Filtering and Regularization Phases
US20150066486A1 (en) * 2013-08-28 2015-03-05 Accusonus S.A. Methods and systems for improved signal decomposition
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2786547C1 (ru) * 2022-04-05 2022-12-22 Акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех
RU2811741C1 (ru) * 2023-05-12 2024-01-16 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Also Published As

Publication number Publication date
WO2020080972A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
RU2691603C1 (ru) Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи
US6937978B2 (en) Suppression system of background noise of speech signals and the method thereof
JP6493889B2 (ja) 音声信号を検出するための方法および装置
US11102569B2 (en) Methods and apparatus for a microphone system
RU2700189C1 (ru) Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума
CN110914901A (zh) 言语信号调平
RU2680735C1 (ru) Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала
US10014906B2 (en) Acoustic echo path change detection apparatus and method
US5353345A (en) Method and apparatus for DTMF detection
JP5016551B2 (ja) エコーキャンセラ
RU2668407C1 (ru) Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи
US8935158B2 (en) Apparatus and method for comparing frames using spectral information of audio signal
RU2807194C1 (ru) Способ выделения речи путем анализа значений амплитуд помехи и сигнала в двухканальной системе обработки речевого сигнала
RU2786547C1 (ru) Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех
RU2519041C2 (ru) Способ борьбы с импульсными помехами на основе их локализации с применением min-max порога в адаптивных системах приема радиосигналов
Ali et al. Auditory-based speech processing based on the average localized synchrony detection
RU2723301C1 (ru) Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
RU165287U1 (ru) Устройство шумоподавления гидроакустической станции связи
KR100860830B1 (ko) 음성 신호의 스펙트럼 정보 추정 장치 및 방법
RU2171549C1 (ru) Устройство для выделения акустических сигналов в каналах связи
US2406825A (en) Privacy system for speech transmission
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
RU2811741C1 (ru) Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи
RU2763480C1 (ru) Устройство для восстановления речевого сигнала
Khoubrouy et al. Howling detection in hearing aids using discrete energy separation algorithm-2 and generalized Teager-Kaiser operator