RU2680351C2 - Способ и устройство обнаружения голосовой активности - Google Patents

Способ и устройство обнаружения голосовой активности Download PDF

Info

Publication number
RU2680351C2
RU2680351C2 RU2017103938A RU2017103938A RU2680351C2 RU 2680351 C2 RU2680351 C2 RU 2680351C2 RU 2017103938 A RU2017103938 A RU 2017103938A RU 2017103938 A RU2017103938 A RU 2017103938A RU 2680351 C2 RU2680351 C2 RU 2680351C2
Authority
RU
Russia
Prior art keywords
vad
snr
class
result
existing
Prior art date
Application number
RU2017103938A
Other languages
English (en)
Other versions
RU2017103938A3 (ru
RU2017103938A (ru
Inventor
Чангбао Чжу
Хао ЯН
Original Assignee
Зте Корпарейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Зте Корпарейшн filed Critical Зте Корпарейшн
Publication of RU2017103938A publication Critical patent/RU2017103938A/ru
Publication of RU2017103938A3 publication Critical patent/RU2017103938A3/ru
Application granted granted Critical
Publication of RU2680351C2 publication Critical patent/RU2680351C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

Изобретение относится к обнаружению голосовой активности (VAD). Технический результат – увеличение точности обнаружения кадров речевой неактивности до и после голосовых сегментов. Для этого способ включает в себя: по меньшей мере один признак первого класса в первой категории признаков, по меньшей мере один признак второго класса во второй категории признаков и по меньшей мере два существующих результата оценки VAD, причем признак первого класса и признак второго класса являются признаками, которые используются для обнаружения VAD (S102); и VAD выполняется в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD (S104). С помощью технического решения получается решение технических проблем низкой точности обнаружения VAD и улучшается точность VAD, тем самым улучшается работа пользователя. 2 н. и 8 з.п. ф-лы, 4 ил.

Description

Область техники
Настоящее изобретение относится к области связи и, в частности, к способу и устройству обнаружения голосовой активности (VAD).
Уровень техники
При обычном голосовом вызове пользователь то разговаривает, то слушает. При таком сценарии в процессе вызова возникает фаза неактивной речи. В обычных условиях суммарно неактивная речевая фаза между вызывающей и вызываемой сторонами занимает более 50% от общей продолжительности голосового кодирования. На неактивной речевой фазе имеется только некоторый фоновый шум, который обычно не содержит никакой полезной информации. Принимая во внимание этот факт, активная речь и неактивная речь обнаруживаются с помощью алгоритма VAD в процедуре обработки голосового сигнала и обрабатываются, соответственно, с использованием различных методов. Многие стандарты кодирования голоса, принятые в настоящее время, такие как Adaptive Multiple Rate (AMR) и Adaptive Multiple Rate-WideBand (AMR-WB), поддерживают функцию VAD. Что касается эффективности, в условиях типичных фоновых шумов VAD этих кодировщиков не может обеспечить хорошие показатели. В частности, эффективность VAD этих кодировщиков относительно низка при нестабильном шумовом воздействии. Иногда VAD может выдавать ошибки при воздействии музыкального сигнала, что значительно снижает показатели соответствующего процессингового алгоритма. Кроме того, для существующих технологий VAD характерной является проблема неточной оценки. Например, одни технологии VAD с относительно низкой точностью обнаруживают несколько кадров перед голосовым сегментом, а другие технологии VAD имеют относительно низкую точность обнаружения нескольких кадров после голосового сегмента.
Эффективного решения вышеуказанных проблем в имеющей к этому отношение области техники предложено не было.
Раскрытие изобретения
Варианты осуществления настоящего изобретения обеспечивают способ и устройство VAD, которые, по меньшей мере, решают технические проблемы с низкой точностью обнаружения, характерные для обычного решения VAD на известном уровне техники.
Согласно одному варианту осуществления настоящего изобретения предлагается способ VAD, который может включать в себя: по меньшей мере, один признак первого класса в первой категории признаков, по меньшей мере, один признак второго класса во второй категории признаков и, по меньшей мере, два существующих результата оценки VAD. В варианте осуществления изобретения признак первого класса и признак второго класса являются признаками, которые используются для обнаружения VAD; и VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения признак первого класса в первой категории признаков может содержать, по меньшей мере, одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал / шум (SNR) всех поддиапазонов и флаг сигнала тональности, в варианте осуществления изобретения среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров. Признак второго класса во второй категории признаков может включать в себя, по меньшей мере, одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.
В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап с), в варианте осуществления изобретения флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр; с) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порога или тип шума не является тишиной, выполняется Этап d), а в противном случае результат оценки VAD, выбранный на этапе а), выбирается как комбинированный результат оценки VAD; d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, из двух существующих результатов оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап е); и е) если флаг типа шума указывает на то, что тип шума является тишиной, флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае, результат оценки VAD, выбранный на Этапе а), выбирается в качестве комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап с), в варианте осуществления изобретения флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр; с) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порога или тип шума не является тишиной, выполняется Этап d), а в противном случае результат решения VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD; d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, из двух существующих результатов оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап е); и е) флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и b) если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порога, а флаг сигнала тональности указывает нетональный сигнал, флаг VAD, который не является выбранным в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в варианте осуществления изобретения флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр.
В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и b) если тип шума не является тишиной и выполнено заданное условие, выполняется логическая операция ИЛИ, по крайней мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения предварительное условие может включать в себя, по меньшей мере, одно из следующих: условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение; условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; и условие 3: флаг сигнала тональности указывает на тональный сигнал.
В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: если количество кадров непрерывного шума больше, чем первое назначенное пороговое значение, а среднее общее SNR всех поддиапазонов меньше, чем второе назначенное пороговое значение, выполняется логическая операция И на, по меньшей мере, двух существующих результатах оценки VAD, и результат логической операции И используется в качестве комбинированного результата оценки VAD; в противном случае, случайным образом выбирается один из существующих результатов оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума могут быть определены с помощью следующих режимов:
вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру, средней энергии длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средней энергии долговременного фонового шума предыдущего кадра;
вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;
вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также
определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.
В примерном варианте осуществления изобретения определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области может включать в себя:
задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.
Согласно другому варианту осуществления настоящего изобретения предлагается устройство VAD, которое может включать в себя: компонент сбора данных, выполненный с возможностью получения, по меньшей мере, одного признака первого класса в категории первых признаков, по меньшей мере, одного признака второго класса в категории вторых признаков и, по меньшей мере, двух существующих результатов оценки VAD. В варианте осуществления изобретения признак первого класса и признак второго класса являются признаками, используемыми для обнаружения VAD; и компонент обнаружения, выполненный с возможностью выполнения VAD в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения компонент сбора данных может включать в себя: первый блок сбора данных, выполненный с возможностью получения признака первого класса в первой категории признаков, которая включает в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее значение соотношения сигнал-шум (SNR) всех поддиапазонов и флаг сигнала тональности, в варианте осуществления изобретения среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; и второй блок сбора данных, выполненный с возможностью приема признака второго класса во второй категории признаков, которая включает в себя, по меньшей мере, одно из следующих: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество непрерывных шумовых кадров и SNR в частотной области.
В вариантах осуществления настоящего изобретения комбинированное обнаружение выполняется в соответствии, по меньшей мере, с одним признаком первого класса в первой категории признаков, по меньшей мере, одним признаком второго класса во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD. Благодаря вышеуказанным техническим средствам решаются технические проблемы с низкой точностью обнаружения VAD в соответствующей технической области, улучшается точность VAD, что улучшает работу пользователя.
Краткое описание чертежей
Представленные здесь чертежи используются для обеспечения дальнейшего понимания вариантов осуществления настоящего изобретения и составляют часть настоящего изобретения. Схематически представленные варианты осуществления изобретения и иллюстрации настоящего изобретения используются для того, чтобы обеспечить наглядное раскрытие сущности изобретения и не имеют целью установление каких-либо ненадлежащих ограничений. На чертежах представлены:
Фиг. 1 - блок-схема последовательности операций по способу VAD согласно варианту осуществления настоящего изобретения;
Фиг. 2 - структурная схема устройства VAD в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 3 - еще одна структурная схема устройства VAD согласно варианту осуществления настоящего изобретения; а также
Фиг. 4 - блок-схема последовательности операций по способу VAD согласно 1 варианту осуществления настоящего изобретения.
Подробное описание вариантов осуществления изобретения
Настоящее изобретение будет проиллюстрировано подробно ниже со ссылкой на чертежи и в сочетании с вариантами осуществления. Следует обратить внимание, что варианты осуществления настоящего изобретения и характеристики вариантов осуществления изобретения допускают комбинирование при условии отсутствия конфликтов.
Для решения проблемы низкой точности обнаружения VAD следующие варианты осуществления изобретения предоставляют соответствующие решения, которые будут подробно проиллюстрированы.
Фиг. 1 - блок-схема последовательности операций по способу VAD согласно варианту осуществления настоящего изобретения. Как показано на Фиг. 1, способ включает этапы S102-S104 следующим образом.
Этап S102: Получены, по меньшей мере, один признак первого класса в первой категории признаков (также называемой категорией 1 признаков), по меньшей мере, один признак второго класса во второй категории признаков (также называемой категорией 2 признаков) и, по меньшей мере, два существующих результата оценки VAD, признак первого класса и признак второго класса - это признаки, используемые для обнаружения VAD.
Этап S104: VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.
С помощью всех вышеперечисленных этапов обработки может быть выполнено комбинированное VAD в соответствии с, по меньшей мере, одним признаком в первой категории признаков, по меньшей мере, одним признаком во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD, тем самым повышая точность VAD.
В настоящем варианте осуществления изобретения признак первого класса в первой категории признаков может включать в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее SNR всех поддиапазонов и флаг сигнала тональности, где среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров.
В настоящем варианте осуществления признак второго класса во второй категории признаков может включать в себя, по меньшей мере, одно из следующих: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество непрерывных шумовых кадров и SNR в частотной области, сглаженное усредненное значение SNR в долговременной частотной области может быть интерпретировано как: SNR частотной области, полученное путем сглаживания среднего значения множества SNR частотной области в течение заданного периода времени (длительное время).
Для этапа S104 существует несколько реализаций. Например, Этап S104 может быть реализован с помощью режимов следующим образом.
Оценка, заканчивающаяся следующими несколькими вариантами реализации, является лишь репрезентацией завершения процесса определенного варианта реализации и не означает, что комбинированный результат оценки VAD больше не изменяется после завершения этого процесса.
Первая реализация выполняется в соответствии со следующими этапами:
a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD;
b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап с), флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр;
c) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, выполняется Этап d), в противном же случае, результат оценки VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD;
d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап е); а также
е) если флаг типа шума указывает, что тип шума является тишиной, флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.
Вторая реализация выполняется в соответствии со следующими этапами:
a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD;
b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап с), флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр;
c) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, выполняется Этап d), в противном же случае, результат оценки VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD;
d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап е); а также
e) флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.
Третья реализация выполняется в соответствии со следующими этапами:
выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и
если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порогового значения, а флаг сигнала тональности указывает на нетональный сигнал, флаг VAD, который не выбран как начальное значение, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, флаг VAD используется для указания на, что является результатом оценки VAD: активный кадр или неактивный кадр.
Четвертая реализация выполняется в соответствии со следующими этапами:
a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и
b) если тип шума не является тишиной и выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки.
Важно отметить, что предварительное условие, связанное с первой реализацией, второй реализацией и четвертой реализацией, может включать в себя, по меньшей мере, одно из следующих:
условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение;
условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; а также
условие 3: флаг сигнала тональности указывает на тональный сигнал.
Важно отметить, что третья реализация и четвертая реализация могут использоваться совместно.
Пятая реализация выполняется в соответствии со следующими этапами:
если количество кадров непрерывного шума больше, чем первое назначенное пороговое значение, а среднее общее SNR всех поддиапазонов меньше, чем второе назначенное пороговое значение, выполняется логическая операция И на, по меньшей мере, двух существующих результатах оценки VAD, и результат логической операции И используется в качестве результата комбинированной оценки VAD; в противном случае, случайным образом выбирается один из существующих результатов оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.
Важно отметить, что пятая реализация и вышеупомянутые четыре реализации могут использоваться совместно.
В примерном варианте осуществления настоящего изобретения сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума могут быть определены с помощью следующих режимов:
вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру, средней энергии длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средней энергии долговременного фонового шума предыдущего кадра;
вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;
вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также
определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.
Важно отметить, что сглаженное усредненное значение SNR в долговременной частотной области получается сглаживанием средних значений SNR в частотной области в течение заданного периода времени.
В примерной реализации флаг типа шума может быть определен на основе следующего способа, но не ограничивается только этим способом:
задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.
В примерной реализации количество непрерывных активных кадров и количество непрерывных кадров шума определяется с помощью следующих режимов:
когда текущий кадр представляет собой неинициализированный кадр, вычислением количества непрерывных активных кадров и количества кадров непрерывного шума текущего кадра в соответствии с комбинированным результатом оценки VAD предыдущего кадра текущего кадра или,
когда текущий кадр представляет собой неинициализированный кадр, выбором одного результата оценки VAD, по меньшей мере, из двух существующих результатов оценки VAD предыдущего кадра и комбинированного результата оценки VAD предыдущего кадра и вычислением количества непрерывных активных кадров и количества непрерывных шумовых кадров текущего кадра в соответствии с выбранным в настоящее время результатом оценки VAD.
В примерном процессе реализации настоящего варианта осуществления изобретения количество непрерывных активных кадров и количество кадров непрерывного шума определяются с помощью следующих режимов:
когда флаг VAD для комбинированного результата оценки VAD предыдущего кадра или для текущего выбранного результата оценки VAD указывает активный кадр, добавляя 1 к числу непрерывных активных кадров и в противном случае устанавливая количество непрерывных активных кадров на 0; и когда флаг VAD для комбинированного результата оценки VAD предыдущего кадра или для текущего выбранного результата оценки VAD указывает на неактивный кадр, добавляя 1 к числу кадров непрерывного шума и в противном случае устанавливая количество кадров непрерывного шума на 0.
В настоящем варианте осуществления изобретения также предусмотрено устройство VAD. Как показано на Фиг. 2, устройство VAD включает в себя:
компонент 20 сбора данных, выполненный с возможностью получения, по меньшей мере, одного признака первого класса в первой категории признаков, по меньшей мере, одного признака второго класса во второй категории признаков и, по меньшей мере, двух существующих результатов оценки VAD, признак первого класса и признак второго класса - признаки, используемые для обнаружения VAD; а также
компонент 22 обнаружения, соединенный с компонентом 20 сбора данных и выполненный с возможностью выполнения в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.
В примерном варианте осуществления изобретения, как показано на Фиг. 3, компонент 20 сбора данных может также включать в себя следующие модули обработки:
первый блок 200 сбора данных, выполненный с возможностью приема признака первого класса в первой категории признаков, которая включает в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее значение SNR всех поддиапазонов и флаг сигнала тональности, среднее значение SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также
второй блок 202 сбора данных, скомпонованный для обнаружения признака второго класса во второй категории признаков, который включает в себя, по меньшей мере, одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.
Важно отметить, что все компоненты, участвующие в настоящем варианте осуществления, могут быть реализованы с помощью программного обеспечения или аппаратного обеспечения. В примерной реализации компоненты могут быть реализованы с помощью аппаратного обеспечения в следующих режимах: компонент 20 сбора данных находится в первом процессоре, а компонент 22 обнаружения находится во втором процессоре; или два компонента расположены, в одном и том же процессоре, но не ограничено этим.
Чтобы лучше понять вышеупомянутый вариант осуществления изобретения, ниже будут представлены подробные иллюстрации в сочетании с примерными вариантами осуществления изобретения.
Операция ИЛИ и операция И, используемые в следующих вариантах осуществления изобретения, определяются следующим образом.
Если какой-либо один флаг вывода VAD в двух VAD является активным кадром, результатом логической операции ИЛИ двух VAD является активный кадр, а когда два VAD являются неактивными кадрами, результат логической операции ИЛИ является неактивным кадром.
Если какой-либо один флаг вывода VAD из двух VAD является неактивным кадром, результатом логической операции И двух VAD является неактивный кадр, а когда два VAD являются одновременно активными кадрами, результатом логической операции И является активный кадр.
Примечание: если не указано, к каким VAD(-ам) относится (относятся) следующий(-е) вариант(-ы) осуществления изобретения, это означает, что VAD(-ы) могут быть двумя существующими VAD или комбинированными VAD или другими VAD, способными выполнять соответствующие функции.
Оценка, результатом которой являются следующие варианты осуществления изобретения, является только результирующим процессом определенной реализации, и не означает, что комбинированный результат оценки VAD больше не изменяется после завершения этого процесса.
1 вариант осуществления изобретения
Настоящий вариант осуществления изобретения предлагает способ VAD. Как показано на Фиг. 4, способ включает в себя следующие этапы.
Этап S402: Получены два существующих выходных результата VAD.
Этап S404: Получают сигнал поддиапазона и амплитуду спектра текущего кадра.
Варианты осуществления настоящего изобретения конкретно проиллюстрированы звуковым потоком, длина кадра которого составляет 20 мс, а частота дискретизации составляет 32 кГц. При других значениях длины кадров и частоты дискретизации также применяется комбинированный способ VAD, обеспечиваемый вариантами осуществления настоящего изобретения.
Сигнал временной области текущего кадра вводится в банк фильтров, и выполняется расчет фильтрации поддиапазона для получения сигнала поддиапазона банка фильтров.
В настоящем варианте осуществления изобретения принимается 40-канальный банк фильтров. Технические решения, обеспечиваемые вариантами осуществления настоящего изобретения, также применимы для банков фильтров с другими объемами каналов.
Сигнал временной области текущего кадра вводится в 40-канальный банк фильтров, и выполняется расчет фильтрации поддиапазона для получения сигналов поддиапазона банка фильтра из 40 поддиапазонов в 16 временных точках выборки Х[k,l], 0≤k<40, и 0≤l<16, где k индекс поддиапазона банка фильтров, а его значение представляет собой поддиапазон, соответствующий коэффициенту; и l является индексом точки временной выборки каждого поддиапазона. Этапы реализации заключаются в следующем.
1: 640 последних образцов звукового сигнала хранятся в кеше данных.
2: данные в кэше данных сдвигаются на 40 позиций, чтобы вывести 40 ранних отсчетов из кэша данных, и сохранить 40 новых образцов на позициях от 0 до 39.
Данные x в кеше умножаются на коэффициент окна для получения массива z, формула расчета следующая:
Figure 00000001
,
где
Figure 00000002
- коэффициент окна банка фильтров.
данные u по 80 точкам вычисляются с использованием следующего псевдокода:
Figure 00000003
Figure 00000004
Массивы r и i вычисляются по следующей формуле:
Figure 00000005
Комплексные выборки по 40 поддиапазонам в первой точке временной выборки рассчитываются по следующей формуле: Х[k,l]=R(k)+iI(k), 0≤k<40, где R(k) и I(k) являются вещественной частью и мнимой частью коэффициента сигнала поддиапазона банка фильтров X на l-ой точке временной выборки, соответственно. Формула расчета следующая.
Figure 00000006
.
3: Процесс вычисления на Этапе 2 повторяется до тех пор, пока все данные текущего кадра не будут отфильтрованы банком фильтров, и конечный результат вывода не станет сигналом поддиапазона банка фильтра Х[k,l].
4: После завершения вышеописанного процесса вычисления получают сигнал поддиапазона банка фильтров Х[k,l] по 40 поддиапазонам в 16 точках временной выборки, где 0≤k<40 и 0≤l<16.
Затем выполняется частотно-временное преобразование на сигнале поддиапазона банка фильтров, и вычисляются амплитуды спектра.
Варианты осуществления настоящего изобретения могут быть реализованы путем выполнения частотно-временного преобразования на всех поддиапазонах банка фильтров или их части и вычисления амплитуд спектра. Для частотно-временного преобразования в вариантах осуществления настоящего изобретения можно использовать метод дискретного преобразования Фурье (ДПФ), метод быстрого преобразования Фурье (БПФ), метод дискретного косинусного преобразования (ДКП) или метод дискретного синусоидального преобразования (ДСП). В вариантах осуществления настоящего изобретения для иллюстрации применен способ реализации с использованием ДПФ в качестве частного примера. Процесс расчета выглядит следующим образом.
Выполняется ДПФ по 16 точкам, для чего взяты данные по 16 точкам временной выборки каждого поддиапазона банка фильтров, проиндексированных от 0 до 9 с целью дополнительного улучшения разрешения спектра. Для получения амплитуды спектра
Figure 00000007
рассчитывается амплитуда каждой частотной точки.
Формула расчета для частотно-временного преобразования следующая.
Figure 00000008
.
Процесс вычисления амплитуды каждой частотной точки следующий.
Во-первых, вычисляется энергия массива
Figure 00000009
на каждой частотной точке, формула расчета следующая:
Figure 00000010
, где
Figure 00000011
и
Figure 00000012
представляют, соответственно, действительную часть и мнимую часть коэффициента
Figure 00000013
спектра.
Если k - четное число, амплитуда спектра на каждой частотной точке вычисляется по следующей формуле:
Figure 00000014
; и
Если k - нечетное число, амплитуда спектра на каждой частотной точке рассчитывается по следующей формуле:
Figure 00000015
,
где
Figure 00000016
- амплитуда спектра, подвергнутая временному преобразованию.
Этап S406: Признак энергии кадра представляет собой взвешенное накопленное значение или непосредственно накопленное значение всех энергий сигналов поддиапазонов.
Признак энергии текущего кадра рассчитывается в соответствии с сигналами поддиапазонов. В частности,
Figure 00000017
Энергия 2 кадра может быть получена путем накопления энергии sb_power в некоторых поддиапазонах.
Figure 00000018
Энергия кадра -
Figure 00000019
.
Множество поддиапазонов SNR может быть получено с помощью поддиапазонного деления, а энергия поддиапазона SNR frame_sb_energy текущего кадра может быть получена путем накопления энергии в соответствующем поддиапазоне.
Figure 00000020
.
Исходная шумовая энергия, включая энергию фонового шума поддиапазонов и энергию фонового шума всех поддиапазонов текущего кадра, оценивается в соответствии с величиной изменения флага фонового шума, признаком энергии текущего кадра и энергией фонового шума всех поддиапазонов предыдущего кадра. Вычисление флага фонового шума показано на этапе S430.
Этап S408: Спектральными центроидными признаками являются отношение взвешенной суммы к невзвешенной сумме энергий всех поддиапазонов или частичных поддиапазонов, или значение получается путем применения фильтра сглаживания к этому отношению. Спектральные центроидные признаки могут быть получены на следующих этапах.
Поддиапазонное деление для расчета спектральных центроидных признаков выглядит следующим образом.
Figure 00000021
Два спектральных центроидных признака, соответственно, спектральный центроидный признак в первом интервале и спектральный центроидный признак во втором интервале, рассчитываются с использованием поддиапазонного деления для расчета спектральных центроидных признаков, как показано в таблице 1, и по следующей формуле:
Figure 00000022
.
Сгладить спектральный центроидный признак во втором интервале sp_center [2] и получить сглаженный спектральный центроидный признак во втором интервале по следующей формуле:
Figure 00000023
.
Этап S410: Признаками доменно-временной стабильности являются отношение дисперсии суммы амплитуд к ожиданию квадрата амплитуд, или это отношение умножается на множитель. Признаки доменно-временной стабильности вычисляются с помощью энергетических признаков последнего кадра N. Пусть энергия n-го кадра будет frame_energy [n]. Амплитуда frame_energy [n] вычисляется путем
Figure 00000024
: где
Figure 00000025
- значение смещения в диапазоне [0,0.1].
Объединяя амплитуды энергии двух смежных кадров от текущего кадра до N-го предыдущего кадра, получают N/2 суммы энергетических амплитуд
Figure 00000026
,
где при n=0
Figure 00000027
[n] представляет собой амплитуду энергии текущего кадра, а при n<0
Figure 00000027
[n] представляет собой амплитуду энергии n-го предыдущего кадра относительно текущего кадра.
Затем вычисляется отношение дисперсии к средней энергии последних N/2 сумм, чтобы получить признак доменно-временной стабильности
Figure 00000028
. Формула расчета следующая:
Figure 00000029
Обратите внимание, что значение N отличается при вычислении различных признаков доменно-временной стабильности.
Этап S412: Признаки тональности вычисляются с амплитудами спектра. Более конкретно, их получают путем вычисления коэффициента корреляции разности амплитуд двух соседних кадров или последующим сглаживанием коэффициента корреляции. Признаки тональности могут быть вычислены на следующих этапах.
a) Вычислите разность амплитуд двух соседних кадров. Если разность меньше 0, задайте ее равной 0. Таким образом, получается группа неотрицательных дифференциальных коэффициентов спектра
Figure 00000030
.
b) Вычислите коэффициент корреляции между неотрицательной разностью амплитуд текущего кадра, полученной на Этапе а), и неотрицательной разностью амплитуд предыдущего кадра для получения первых признаков тональности. Формула расчета следующая:
Figure 00000031
,
где
Figure 00000032
- разность амплитуд предыдущего кадра. Различные признаки тональности можно рассчитать по следующей формуле:
Figure 00000033
где
Figure 00000034
- признаки тональности предыдущего кадра.
Этап S414: Признаками спектральной плоскостности являются: отношение среднего геометрического к среднему арифметическому определенной амплитуды спектра, или это отношение умножается на коэффициент. Спектр амплитуды spec_amp [] сглажен для получения сглаженной амплитуды спектра:
Figure 00000035
, 0<=i <SPEC_AMP_NUM. Сглаженная амплитуда спектра делится на три частотные области, и вычисляются спектральные признаки плоскостности для этих трех частотных областей. В таблице 2 показано деление частотной области для плоскостности спектра.
Figure 00000036
Figure 00000037
Признаками спектральной плоскостности являются: отношение геометрического среднего значения geo_mean [k] к среднему арифметическому ari_mean [k] амплитуды спектра или сглаженной амплитуды спектра. Число амплитуд спектра, используемых для вычисления спектрального признака плоскостности SFF [k], равно
Figure 00000038
.
Figure 00000039
Figure 00000040
Figure 00000041
Признаки спектральной плоскостности текущего кадра дополнительно сглаживаются, чтобы получить сглаженные спектральные признаки плоскостности
Figure 00000042
.
Этап S416: Признак SNR текущего кадра вычисляется в соответствии с оцененной энергией фонового шума предыдущего кадра, признаком энергии кадра и энергией поддиапазона SNR текущего кадра. Шаги расчета для SNR частотной области следующие.
Когда флагом фонового шума предыдущего кадра является 1, энергия фононного шума поддиапазона обновляется, обновляя псевдокоды следующим образом:
Figure 00000043
SNR каждого поддиапазона вычисляется в соответствии с энергией поддиапазона текущего кадра и оцененной энергией фонового шума поддиапазона предыдущего кадра, a SNR каждого поддиапазона, меньшего определенного порогового значения, устанавливается на 0. В частности,
Figure 00000044
, где
Figure 00000045
меньше -0.1 задается равным 0.
Среднее значение SNR всех поддиапазонов представляет собой SNR (snr) частотной области. В частности,
Figure 00000046
.
Этап S418: Флаг типа шума получается в соответствии со сглаженным SNR долговременной частотной области и долговременным
Figure 00000047
.
Долговременное SNR представляет собой отношение средней энергии долговременных активных кадров и средней энергии долговременного фонового шума. Средняя энергия длинных активных кадров и средняя энергия длительного фонового шума обновляются в соответствии с флагом VAD предыдущего кадра. Когда флаг VAD является неактивным кадром, обновляется средняя энергия долговременного фонового шума, а когда флаг VAD является активным кадром, обновляется средняя энергия долговременных активных кадров. В частности,
средняя энергия длинных активных кадров -
Figure 00000048
;
средняя энергия долговременного фонового шума равна
Figure 00000049
,
где
Figure 00000050
i - значение индекса активного кадра,
Figure 00000051
a j - значение индекса неактивного кадра; а также
долговременное
Figure 00000052
.
Начальный флаг типа шума устанавливается на отсутствие тишины, а когда
Figure 00000053
больше установленного порогового значения THR1, и
Figure 00000054
больше установленного порогового значения THR2, флаг типа шума устанавливается на тишину.
Процесс вычисления
Figure 00000055
показан на Этапе S420.
VAD, используемый на Этапе S418, может быть (не ограничиваясь только этим) одним VAD из двух VAD, но также может быть комбинированным VAD.
Этап S420: Способ расчета сглаженной средней долговременной частотной области SNR
Figure 00000055
выглядит следующим образом:
Figure 00000056
где
Figure 00000057
,
где
Figure 00000058
и
Figure 00000059
являются, соответственно, аккумулятором SNR частотной области и счетчиком активных кадров, а
Figure 00000060
и
Figure 00000061
, соответственно, являются аккумулятором SNR частотной области и счетчиком для неактивных кадров. Когда текущий кадр является исходным кадром, инициализация выполняется следующим образом.
Figure 00000062
Когда текущий кадр не является исходным кадром, указанные выше четыре параметра обновляются в соответствии с флагом VAD. Когда флаг VAD указывает, что текущий кадр является неактивным кадром, параметры обновляются в соответствии со следующей формулой:
Figure 00000063
Когда флаг VAD указывает, что текущий кадр является активным кадром,
Figure 00000064
VAD на Этапе S420 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.
Этап S422: Задается начальное значение для количества кадров непрерывного шума во время первого кадра, при этом начальное значение устанавливается в 0 в этом варианте осуществления изобретения. Во время второго кадра и последующих кадров, когда оценка VAD указывает на неактивный кадр, количество кадров непрерывного шума увеличивается на 1, в противном же случае, количество кадров непрерывного шума устанавливается равным 0.
VAD на Этапе S422 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.
Этап S424: Флаг сигнала тональности текущего кадра вычисляется в соответствии с признаком энергии кадра, признаком тональности
Figure 00000065
признаком доменно-временной стабильности
Figure 00000066
, признаком спектральной плоскостности sSFM и спектральным центроидным признаком sp_center текущего кадра, и оценивается, является ли текущий кадр тональным сигналом. Когда текущим кадром является тональный сигнал, текущий кадр считается музыкальным кадром. Выполняются следующие операции.
a) Предположим, что текущий сигнал кадра является нетональным сигналом, и флаг кадра тональности
Figure 00000067
используется для указания, является ли текущий кадр тональным кадром. Когда значение
Figure 00000068
равно 1, это означает, что текущий кадр является тональным кадром, а когда значение
Figure 00000069
равно 0, это означает, что текущий кадр не является тональным.
b) Если признак тональности
Figure 00000070
или его сглаженное значение
Figure 00000071
больше, чем их предварительно заданные пороговые значения, выполняется Этап с), в противном же случае, выполняется этап d).
c) Если признак доменно-временной стабильности
Figure 00000072
меньше заданного порогового значения, спектральный центроидный признак
Figure 00000073
больше заданного порогового значения, и один из трех признаков спектральной плоскостности меньше своего порогового значения, определяется, что текущий кадр представляет собой тональный кадр, значение флага кадра тональности
Figure 00000074
устанавливается равным 1, и далее выполняется Этап d).
d) Признак тонального уровня
Figure 00000075
обновляется в соответствии с флагом кадра тональности
Figure 00000076
, начальное значение признака тонального уровня
Figure 00000077
устанавливается, когда устройство VAD начинает работать в области [0, 1].
Если текущий флаг кадра тональности указывает, что текущий кадр является тональным кадром, признак тонального уровня
Figure 00000078
обновляется по следующей формуле:
Figure 00000079
Если текущий кадр не является тональным кадром, признак тонального уровня
Figure 00000078
обновляется по следующей формуле:
Figure 00000080
e) Оценивается, является ли текущий кадр тональным сигналом в соответствии с обновленным признаком тонального уровня
Figure 00000078
и значение флага сигнала тональности
Figure 00000081
устанавливается соответствующим образом. Если признак тонального уровня имеет значение
Figure 00000082
больше установленного порогового значения, определяется, что текущий кадр является тональным сигналом, в противном же случае, определяется, что текущий кадр не является тональным сигналом.
Этап S426: Среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для множества кадров. Способ расчета следующий.
Когда флаг фонового шума предыдущего кадра равен 1, энергия кадра текущего кадра накапливается в фоновом шумовом аккумуляторе энергии всех поддиапазонов
Figure 00000083
, а значение счетчика энергии фонового шума всех поддиапазонов
Figure 00000084
увеличивается на 1.
Фоновая энергия шума всех поддиапазонов рассчитывается по следующей формуле:
Figure 00000085
.
SNR всех поддиапазонов для текущего кадра вычисляется в соответствии с энергией текущего кадра.
Figure 00000086
SNR всех поддиапазонов для множества кадров усредняются для получения среднего общего SNR всех поддиапазонов.
Figure 00000087
,
где N представляет N последних кадров, a tsnr [i] представляет tsnr i-го кадра.
Этап S428: Устанавливается начальное значение для количества непрерывных активных кадров во время первого кадра. В этом варианте осуществления изобретения начальное значение установлено на 0. Когда текущий кадр является вторым кадром и речевым кадром за вторым кадром, текущее количество непрерывных активных кадров рассчитывается в соответствии с результатом оценки VAD. В частности,
Когда флаг VAD равен 1, количество непрерывных активных кадров увеличивается на 1, в противном же случае, количество непрерывных активных кадров равно 0.
VAD на Этапе S428 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.
Этап S430: Исходный флаг фонового шума текущего кадра вычисляется в соответствии с признаком энергии кадра, спектральным центроидным признаком, признаком доменно-временной стабильности, признаком спектральной плоскостности и признаком тональности текущего кадра, начальный флаг фонового шума изменяется в соответствии с результатом оценки VAD, признаком тональности, признаком SNR, флагом сигнала тональности и признаком доменно-временной стабильности текущего кадра с целью получения финального флага фонового шума, и выполняется обнаружение фонового шума в соответствии с флагом фонового шума.
Флаг фонового шума используется для указания, следует ли обновлять энергию фонового шума, и значение флага фонового шума устанавливается на 1 или 0. Когда значение флага фонового шума равно 1, энергия фонового шума обновляется, а когда значение флага фонового шума равно 0, энергия фонового шума не обновляется.
Во-первых, предположим, что текущий кадр является фоновым шумовым кадром, и, если выполнено любое из следующих условий, можно определить, что текущий кадр не является шумовым сигналом.
a) Признак доменно-временной стабильности
Figure 00000088
больше заданного порогового значения, которое колеблется от 0,05 до 0,30.
b) Спектральный центроидный признак
Figure 00000089
и признак доменно-временной стабильности
Figure 00000090
больше соответствующих пороговых значений соответственно, пороговое значение, соответствующее
Figure 00000091
, колеблется от 2 до 6, и пороговое значение, соответствующее
Figure 00000092
, составляет от 0,001 до 0,1.
c) Признак тональности
Figure 00000093
и признак доменно-временной стабильности
Figure 00000094
больше соответствующих пороговых значений соответственно, пороговое значение, соответствующее
Figure 00000095
варьируется от 0,4 до 0,6, а пороговое значение, соответствующее
Figure 00000096
, составляет от 0,05 до 0,15.
d) Признаки спектральной плоскостности каждого поддиапазона или сглаженные спектральные признаки плоскостности каждого поддиапазона меньше, чем соответствующие установленные пороговые значения, которые колеблются от 0,70 до 0,92.
e) Энергия
Figure 00000097
текущего кадра больше заданного порогового значения, пороговое значение находится в диапазоне от 50 до 500, или пороговое значение динамически устанавливается в соответствии с средней продолжительной энергией.
f) признак тональности
Figure 00000098
больше соответствующего порогового значения.
g) Исходный флаг фонового шума может быть получен выполнением Этапа а) до Этапа f), а затем исходный флаг фонового шума изменяется. Когда признак SNR, признак тональности и признак доменно-временной стабильности меньше соответствующих пороговых значений, и когда
Figure 00000099
и
Figure 00000100
установлены на 0, флаг фонового шума обновляется до 1.
VAD на Этапе S430 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.
Этап S432: Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.
В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно
Figure 00000101
и
Figure 00000102
, а выходной флаг комбинированного VAD -
Figure 00000103
. Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.
a) выбирается
Figure 00000104
как начальное значение
Figure 00000105
.
b) Если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, такого как 0,2, а начальное значение
Figure 00000106
комбинированного VAD равно 0 ,
Figure 00000107
выбирается как комбинированный VAD, и оценка заканчивается; в противном случае, выполняется Этап с).
c) Если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения, такого, как 10,5, или тип шума не является тишиной, выполняется Этап d), в противном случае, начальное значение
Figure 00000108
, выбранное на Этапе а), выбирается в качестве комбинированного результата оценки VAD.
d) Если выполнено одно из следующих условий, результат логической операции ИЛИ двух VAD используется в качестве комбинированного VAD, и решение заканчивается; в противном случае, выполняется Этап е).
Условие 1: Среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение, такое, как 2.2.
Условие 2: Среднее общее SNR всех поддиапазонов больше второго порогового значения, такого, как 1,5, а количество непрерывных активных кадров больше порогового значения, такого, как 40.
Условие 3: Флаг сигнала тональности равен 1.
е) Если флаг типа шума указывает, что тип шума является тишиной,
Figure 00000109
выбирается в качестве комбинированного VAD, и оценка заканчивается.
2 вариант осуществления изобретения:
Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.
Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.
В настоящем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно
Figure 00000110
и
Figure 00000111
, а выходной флаг комбинированного VAD -
Figure 00000112
. Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.
a) выбирается
Figure 00000113
как начальное значение
Figure 00000114
.
b) Если тип шума является тишиной, SNR в частотной области больше заданного порогового значения, такого, как 0,2, а начальное значение
Figure 00000115
комбинированного VAD равно 0,
Figure 00000116
выбирается как комбинированного VAD, и оценка заканчивается; в противном случае, выполняется Этап с).
c) Если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения, такого, как 10,5, или тип шума не является тишиной, выполняется Этап d), в противном случае, начальное значение
Figure 00000117
, выбранное на Этапе а), выбирается в качестве комбинированного результата оценки VAD.
d) Если выполнено одно из следующих условий, результат логической операции ИЛИ двух VAD используется в качестве комбинированного VAD, и решение заканчивается; в противном случае, выполняется Этап е).
Условие 1: Среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение, такое, как 2.0.
Условие 2: Среднее общее SNR всех поддиапазонов больше второго порогового значения, такого, как 1,5, а количество непрерывных активных кадров больше порогового значения, такого, как 30.
Условие 3: Флаг сигнала тональности равен 1.
е)
Figure 00000118
выбирается как комбинированный VAD, и оценка заканчивается.
3 вариант осуществления изобретения:
Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.
Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.
В настоящем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно
Figure 00000119
и
Figure 00000120
, а выходной флаг комбинированного VAD -
Figure 00000121
. Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.
a) выбирается
Figure 00000122
как начальное значение
Figure 00000123
.
b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).
c) Если сглаженное усредненное значение SNR в долговременной частотной области больше 12,5, а
Figure 00000124
равно 0,
Figure 00000125
устанавливается как
Figure 00000126
, в противном случае, начальное значение
Figure 00000127
, выбранное на Этапе а), выбирается в виде комбинированного результата оценки VAD.
d) Если среднее общее SNR всех поддиапазонов больше 2,0, или среднее общее SNR всех поддиапазонов больше 1,5, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ
Figure 00000128
используется в качестве комбинированного VAD, в противном случае, начальное значение
Figure 00000129
, выбранное на этапе а), выбирается как комбинированный результат оценки VAD.
4 вариант осуществления изобретения:
Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.
Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.
В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно
Figure 00000130
и
Figure 00000131
, а выходной флаг комбинированного VAD -
Figure 00000132
. Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.
a) выбирается
Figure 00000131
как начальное значение
Figure 00000133
.
b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).
c) Если сглаженное усредненное значение SNR в долговременной частотной области больше 12,5, а
Figure 00000134
равно 0,
Figure 00000135
устанавливается как
Figure 00000136
, в противном случае, выполняется Этап е).
d) Если среднее общее SNR всех поддиапазонов больше 1,5 или среднее общее SNR всех поддиапазонов больше 1,0, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ
Figure 00000137
используется как комбинированный VAD, в противном случае, выполняется Этап е).
e) Если количество непрерывных шумовых кадров больше 10, а среднее общее SNR всех поддиапазонов меньше 0,1, результат операции И на двух существующих выходных флагах VAD, то есть И
Figure 00000138
используется как комбинированный VAD, в противном случае,
Figure 00000139
выбирается как комбинированный VAD.
5 вариант осуществления изобретения:
Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.
Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.
В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно
Figure 00000140
и,
Figure 00000141
а выходной флаг комбинированного VAD -
Figure 00000142
. Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.
a) выбирается
Figure 00000143
как начальное значение
Figure 00000144
.
b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).
c) Если
Figure 00000145
равно 0, результат логической операции ИЛИ двух VAD, то есть ИЛИ
Figure 00000146
, используется в качестве комбинированного VAD, а в противном случае
Figure 00000147
выбирается как комбинированный VAD.
d) Если среднее общее SNR всех поддиапазонов больше 2,0, или среднее общее SNR всех поддиапазонов больше 1,5, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ
Figure 00000148
используется в качестве комбинированного VAD, в противном случае, начальное значение
Figure 00000149
, выбранное на этапе а), выбирается как комбинированный результат оценки VAD.
В другом варианте осуществления изобретения, также предусматривается программное обеспечение, которое организовано для выполнения технических решений, описанных в указанных выше вариантах осуществления изобретения и примерных вариантах реализации.
В еще одном варианте осуществления изобретения также предусмотрен носитель информации. Программное обеспечение хранится на носителе информации. Носитель информации включает в себя, но не ограничивается ими, оптический диск, гибкий диск, жесткий диск, носитель со стираемой памятью и т.п.
Очевидно, что специалисты в данной области должны понимать, что все компоненты или все этапы настоящего изобретения могут быть реализованы с использованием общего вычислительного устройства, могут быть централизованы на одном вычислительном устройстве или могут быть распределены по сети, состоящей из множества вычислительных устройств В качестве варианта, они могут быть реализованы с использованием исполняемых программных кодов вычислительных устройств. Таким образом, они могут храниться в устройстве хранения и выполняться вычислительными устройствами, показанные или описанные этапы, при определенных условиях, могут выполняться в последовательности, отличной от этой последовательности, или они производятся в каждом компоненте интегральной схемы, соответственно, или множестве компонентов или на этапах в одном компоненте интегральной схемы. Таким образом, настоящее раскрытие сущности изобретения не ограничивается какими-либо сочетаниями конкретных аппаратных и программных средств.
Упомянутые варианты осуществления настоящего изобретения являются примерными и не используются для ограничения настоящего раскрытия. Для специалистов в данной области техники настоящее изобретение может иметь различные модификации и варианты реализации. Любые модификации, эквивалентные замены, усовершенствования и т.п.в рамках принципов реализации настоящего изобретения должны оставаться в пределах области охранительного действия, определяемой формулой настоящего изобретения.
Промышленная применимость
Основываясь на вышеупомянутом техническом решении, предоставленном вариантам осуществления настоящего изобретения, комбинированное обнаружение выполняется в соответствии, по меньшей мере, с одним признаком первого класса в первой категории признаков, по меньшей мере, одним признаком второго класса во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD. Могут быть решены технические проблемы низкой точности обнаружения решения VAD на соответствующем уровне техники, и точность VAD может быть улучшена, что улучшит работу пользователя.

Claims (43)

1. Способ обнаружения голосовой активности (VAD), состоящий из:
получения по меньшей мере одного признака первого класса в первой категории признаков, по меньшей мере одного признака второго класса во второй категории признаков и по меньшей мере двух существующих результатов оценки VAD, причем признак первого класса и признак второго класса - это признаки, используемые для обнаружения VAD; а также
выполнения в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD,
в котором
признак первого класса в первой категории признаков содержит по меньшей мере одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал/шум (SNR) всех поддиапазонов и флаг сигнала тональности, при этом среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также
признак второго класса во второй категории признаков содержит по меньшей мере одно из следующего: флаг типа шума, сглаженную усредненную область SNR с длительной частотой, количество кадров непрерывного шума и частотную область SNR.
2. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:
a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD;
b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере из двух существующих результатов оценки VAD, в качестве комбинированного результата оценки VAD, если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, в противном случае выполняется Этап с), причем флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр;
c) выполнение Этапа d), если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD;
d) выполнение логической операции ИЛИ на по меньшей мере двух существующих результатах оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD при выполнении заданного условия, в противном случае выполнение Этапа е); а также
e) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере по двум существующим результатам оценки VAD в качестве комбинированного результата оценки VAD, если флаг типа шума указывает на то, что тип шума является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD.
3. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:
a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD;
b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере из двух существующих результатов оценки VAD, в качестве комбинированного результата оценки VAD, если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, в противном случае выполняется Этап с), причем флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр;
c) выполнение Этапа d), если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD;
d) выполнение логической операции ИЛИ на по меньшей мере двух существующих результатах оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD при выполнении заданного условия, в противном случае выполнение Этапа е); а также
e) выбор флага VAD, который не выбран в качестве начального значения по меньшей мере в двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD.
4. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:
a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD и
b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере в двух существующих результатах оценки VAD в качестве комбинированного результата оценки VAD, если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порогового значения, а флаг сигнала тональности указывает на нетональный сигнал, в котором флаг VAD используется для указания того, что результат оценки VAD является активным кадром или неактивным кадром.
5. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD, содержит:
a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD и
b) проведение логической операции ИЛИ по крайней мере по двум существующим результатам оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD, если типом шума является не тишина и выполнено заданное условие.
6. Способ по любому из пп. 2, 3 или 5, в котором предварительно заданное условие содержит по меньшей мере одно из следующих:
условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение;
условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; а также
условие 3: флаг сигнала тональности указывает на тональный сигнал.
7. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:
выполнение логической операции И по меньшей мере по двум существующим результатам оценки VAD и использование результата логической операции И в качестве комбинированного результата оценки VAD, если количество непрерывных шумовых кадров больше, чем первое назначенное пороговое значение, а среднее общее значение SNR по всем поддиапазонам меньше второго назначенного порога; в противном же случае случайный выбор одного из существующих результатов оценки VAD из по меньшей мере двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.
8. Способ по п. 1, в котором сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума определяются с помощью следующих режимов:
вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или по меньшей мере два существующих результата оценки VAD, соответствующие предыдущему кадру, средняя энергия длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средняя энергия долговременного фонового шума предыдущего кадра;
вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;
вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или по меньшей мере по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также
определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.
9. Способ по п. 8, в котором определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области содержит:
задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.
10. Устройство обнаружения голосовой активности (VAD), содержащее:
компонент сбора данных, выполненный с возможностью получения по меньшей мере одного признака первого класса в первой категории признаков, по меньшей мере одного признака второго класса во второй категории признаков и по меньшей мере двух существующих результатов оценки VAD, причем признак первого класса и признак второго класса суть признаки, используемые для обнаружения VAD; а также
компонент обнаружения, выполненный с возможностью выполнения VAD в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD,
в котором компонент сбора данных содержит:
первый блок обнаружения, скомпонованный для обнаружения признака первого класса в первой категории признаков, который содержит по меньшей мере одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал/шум (SNR) всех поддиапазонов и флаг сигнала тональности, при этом среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также
второй блок сбора данных, скомпонованный для обнаружения признака второго класса во второй категории признаков, который содержит по меньшей мере одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.
RU2017103938A 2014-07-18 2014-10-24 Способ и устройство обнаружения голосовой активности RU2680351C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410345942.3A CN105261375B (zh) 2014-07-18 2014-07-18 激活音检测的方法及装置
CN201410345942.3 2014-07-18
PCT/CN2014/089490 WO2015117410A1 (zh) 2014-07-18 2014-10-24 激活音检测的方法及装置

Publications (3)

Publication Number Publication Date
RU2017103938A RU2017103938A (ru) 2018-08-20
RU2017103938A3 RU2017103938A3 (ru) 2018-08-31
RU2680351C2 true RU2680351C2 (ru) 2019-02-19

Family

ID=53777227

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017103938A RU2680351C2 (ru) 2014-07-18 2014-10-24 Способ и устройство обнаружения голосовой активности

Country Status (9)

Country Link
US (1) US10339961B2 (ru)
EP (2) EP4273861A3 (ru)
JP (1) JP6606167B2 (ru)
KR (1) KR102390784B1 (ru)
CN (1) CN105261375B (ru)
CA (1) CA2955652C (ru)
ES (1) ES2959448T3 (ru)
RU (1) RU2680351C2 (ru)
WO (1) WO2015117410A1 (ru)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN115719592A (zh) * 2016-08-15 2023-02-28 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN108665889B (zh) * 2018-04-20 2021-09-28 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
CN108806707B (zh) 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
CN108962284B (zh) * 2018-07-04 2021-06-08 科大讯飞股份有限公司 一种语音录制方法及装置
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
CN110431625B (zh) * 2019-06-21 2023-06-23 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备
WO2021021038A1 (en) 2019-07-30 2021-02-04 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Multi-channel acoustic event detection and classification method
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011049516A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
WO2011140096A1 (en) * 2010-05-03 2011-11-10 Aliphcom, Inc. Vibration sensor and acoustic voice activity detection system (vads) for use with electronic systems
US20120232896A1 (en) * 2010-12-24 2012-09-13 Huawei Technologies Co., Ltd. Method and an apparatus for voice activity detection
RU2469419C2 (ru) * 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US8756063B2 (en) 2006-11-20 2014-06-17 Samuel A. McDonald Handheld voice activated spelling device
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
WO2012083554A1 (en) 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
US9330672B2 (en) * 2011-10-24 2016-05-03 Zte Corporation Frame loss compensation method and apparatus for voice frame signal
CN104424956B9 (zh) 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN106575511B (zh) * 2014-07-29 2021-02-23 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2469419C2 (ru) * 2007-03-05 2012-12-10 Телефонактиеболагет Лм Эрикссон (Пабл) Способ и устройство для управления сглаживанием стационарного фонового шума
WO2011049516A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
WO2011140096A1 (en) * 2010-05-03 2011-11-10 Aliphcom, Inc. Vibration sensor and acoustic voice activity detection system (vads) for use with electronic systems
US20120232896A1 (en) * 2010-12-24 2012-09-13 Huawei Technologies Co., Ltd. Method and an apparatus for voice activity detection

Also Published As

Publication number Publication date
CN105261375A (zh) 2016-01-20
EP4273861A3 (en) 2023-12-20
KR102390784B1 (ko) 2022-04-25
EP3171363A4 (en) 2017-07-26
US10339961B2 (en) 2019-07-02
EP4273861A2 (en) 2023-11-08
JP2017521720A (ja) 2017-08-03
EP3171363A1 (en) 2017-05-24
CA2955652C (en) 2022-04-05
RU2017103938A3 (ru) 2018-08-31
CA2955652A1 (en) 2015-08-13
KR20170035986A (ko) 2017-03-31
US20170206916A1 (en) 2017-07-20
EP3171363B1 (en) 2023-08-09
CN105261375B (zh) 2018-08-31
JP6606167B2 (ja) 2019-11-13
ES2959448T3 (es) 2024-02-26
RU2017103938A (ru) 2018-08-20
WO2015117410A1 (zh) 2015-08-13

Similar Documents

Publication Publication Date Title
RU2680351C2 (ru) Способ и устройство обнаружения голосовой активности
US9978398B2 (en) Voice activity detection method and device
US9672841B2 (en) Voice activity detection method and method used for voice activity detection and apparatus thereof
RU2684194C1 (ru) Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
CN103021420B (zh) 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN109119096B (zh) 一种vad判决中当前激活音保持帧数的修正方法及装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
WO2014182462A1 (en) Method, device and computer-program product for noise characteristic dependent speech enhancement
RU2666337C2 (ru) Способ обнаружения звукового сигнала и устройство
CN106024017A (zh) 语音检测方法及装置
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
CN106816157A (zh) 语音识别方法及装置
CN112530450A (zh) 频域中的样本精度延迟识别
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach
Marxer et al. Low-latency bass separation using harmonic-percussion decomposition
Upadhyay Iterative-processed multiband speech enhancement for suppressing musical sounds
Ancona A Strategy for Noise Reduction in Speech Recordings from Smartphones and Tablets