RU2684194C1 - Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности - Google Patents

Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности Download PDF

Info

Publication number
RU2684194C1
RU2684194C1 RU2017145122A RU2017145122A RU2684194C1 RU 2684194 C1 RU2684194 C1 RU 2684194C1 RU 2017145122 A RU2017145122 A RU 2017145122A RU 2017145122 A RU2017145122 A RU 2017145122A RU 2684194 C1 RU2684194 C1 RU 2684194C1
Authority
RU
Russia
Prior art keywords
frames
background noise
accordance
decision
snr
Prior art date
Application number
RU2017145122A
Other languages
English (en)
Inventor
Чанбао ЧЖУ
Хао ЮАНЬ
Original Assignee
ЗетТиИ Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ЗетТиИ Корпорейшн filed Critical ЗетТиИ Корпорейшн
Application granted granted Critical
Publication of RU2684194C1 publication Critical patent/RU2684194C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к средствам для получения кадра модификации речевой активности. Технический результат заключается в повышении эффективности обработки речевых сигналов. Получают первый результат принятия решения об обнаружении речевой активности и второй результат принятия решения об обнаружении речевой активности. Получают количество кадров затягивания для активного звука и получают количество обновлений фонового шума. Затем вычисляют количество модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука. В заключение вычисляют результат принятия решения об обнаружении речевой активности для текущего кадра в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности. 4 н. и 16 з.п. ф-лы, 8 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящая заявка, без ограничения указанными применениями, относится к области связи.
УРОВЕНЬ ТЕХНИКИ
При выполнении обычных речевых вызовов пользователь некоторое время говорит и некоторое время слушает абонента. В это время в процессе обработки вызова может обнаруживаться фаза речевой неактивности. Обычно суммарная длительность фазы речевой неактивности обеих сторон вызова превышает 50% всего временного периода кодирования этих сторон. В течение фазы речевой неактивности существует только фоновый шум, в котором отсутствует полезная информация. С учетом этого факта в процессе обработки речевого сигнала активная и неактивная речь обнаруживается с помощью алгоритма обнаружения речевой активности (сокращенно VAD, Voice Activity Detection) и, соответственно, обрабатывается с использованием различных способов. Множество стандартов кодирования, например адаптивное многоскоростное (AMR, Adaptive Multi-Rate) и адаптивное многоскоростное широкополосное (AMR-WB, Adaptive Multi-Rate Wideband) кодирование, поддерживают функцию VAD. С точки зрения эффективности, VAD этих кодеров не обладает хорошей производительностью для всех типовых фоновых шумов. Эффективность VAD этих кодеров становится особенно низкой при наличии нестабильного шума. Для музыкальных сигналов в процессе VAD иногда происходит ошибочное обнаружение, в результате чего значительно снижается качество соответствующего алгоритма обработки.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Далее приводится обзор вариантов осуществления изобретения, подробно описываемых в этой заявке. Этот обзор не предназначен для ограничения формулы изобретения.
В рамках вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука и способ и устройство обнаружения речевой активности (VAD) для решения проблемы, связанной с низкой точностью обнаружения речевой активности.
С помощью вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука, включающий:
получение результата принятия решения об обнаружения речевой активности (VAD) для текущего кадра;
получение количества кадров затягивания (hangover frames) для активного звука;
получение количества обновлений фонового шума и
получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение результата принятия решения об обнаружении речевой активности для текущего кадра включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналами поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудами спектра;
вычисление отношения сигнал/шум (SNR, Signal-To-Noise Ratio) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов SNR текущего кадра;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра.
Согласно примеру осуществления настоящего изобретения
энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношений взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации этого отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;
характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд сглаженного спектра, или является произведением этого отношения на коэффициент; и
характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров, или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.
Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра включает:
получение долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра;
получение усредненного общего SNR всех поддиапазонов путем вычисления среднего значения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру;
получение порогового значения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
получение начального решения VAD в соответствии с пороговым значением SNR для VAD и параметром SNR и
получение результата принятия решения VAD путем обновления начального решения VAD в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR.
Согласно примеру осуществления настоящего изобретения получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если результат принятия решения VAD указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука максимального из следующих двух значений: величина константы и количество кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
установку начального значения кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов и получение количества кадров затягивания для активного звука путем обновления текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения VAD для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и результатом принятия решения VAD для текущего кадра.
Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:
вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемого с помощью кадра, предшествующего текущему кадру; и вычисление среднего значения SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.
Согласно примеру осуществления настоящего изобретения предварительным условием для модификации текущего количества кадров затягивания для активного звука является флаг обнаружения речевой активности, указывающий на то, что текущий кадр является активным.
В соответствии с примером осуществления настоящего изобретения обновление текущего количества кадров затягивания для активного звука с целью получения количества кадров затягивания для активного звука включает:
при получении количества кадров затягивания для активного звука, если количество непрерывных активных кадров меньше установленного первого порогового значения и долговременное SNR меньше установленного первого порогового значения, обновление количества кадров затягивания для активного звука путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; и если усредненное общее SNR всех поддиапазонов больше установленного порогового значения и количество непрерывных активных кадров больше установленного второго порогового значения, установку значения количества кадров затягивания для активного звука в соответствии со значением долговременного SNR.
Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
установку начального значения количества обновлений фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением отношения на коэффициент; и
параметр спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра или является произведением этого отношения на коэффициент.
Согласно примеру осуществления настоящего изобретения обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума включает:
установку флага обновления фонового шума в качестве первого предварительно установленного значения;
определение того, что текущий кадр не является сигналом шума, и установку флага обновления фонового шума в качестве второго предварительно установленного значения, если истинно любое из следующих условий:
характеристика стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектрального центроида, к которому применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области также превышает установленное пороговое значение;
значение характеристики тональности или значение характеристики тональности, к которой применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектральной неравномерности каждого поддиапазона или значение характеристики спектральной неравномерности каждого поддиапазона, к которому применена сглаживающая фильтрация, меньше соответствующего установленного порогового значения; или
значение энергетического параметра кадра превышает установленное пороговое значение.
С помощью вариантов осуществления настоящего изобретения предлагается способ обнаружения речевой активности, включающий:
получение первого результата принятия решения об обнаружении речевой активности;
получение количества кадров затягивания для активного звука; получение количества обновлений фонового шума;
вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
получение второго результата принятия решения об обнаружении речевой активности и
вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности включает:
если второй результат принятия решения об обнаружении речевой активности указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, установку результата принятия решения об обнаружении речевой активности в качестве активного кадра и уменьшение количества модифицированных кадров на единицу.
В соответствии с примером осуществления настоящего изобретения получение первого результата принятия решения об обнаружении речевой активности включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра;
вычисление отношения сигнал/шум текущего кадра в соответствии с энергией фонового шума, полученной на основе предшествующего кадра, энергетическим параметром кадра и энергией поддиапазона отношения сигнал/шум;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;
характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра, или является произведением этого отношения на коэффициент; и
характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.
Согласно примеру осуществления настоящего изобретения вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра включает:
вычисление долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума, вычисленной в предшествующем кадре;
вычисление средней величины SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, с целью получения усредненного общего SNR всех поддиапазонов;
получение порогового значения для принятия решения об обнаружении речевой активности в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
вычисление начального результата принятия решения об обнаружении речевой активности в соответствии с пороговым значением для принятия решения об обнаружении речевой активности и отношением сигнал/шум и
модификацию начального результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR с целью получения первого результата принятия решения об обнаружении речевой активности.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
установку начального значения кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра и
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналами поддиапазонов и модификацию текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения об обнаружении речевой активности для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и первым результатом принятия решения об обнаружении речевой активности.
Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:
вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемой с помощью кадра, предшествующего текущему кадру; и вычисление средней величины SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.
Согласно примеру осуществления настоящего изобретения предварительным условием для коррекции текущего количества кадров затягивания для активного звука является флаг речевой активности, указывающий на то, что текущий кадр является активным.
В соответствии с примером осуществления настоящего изобретения модификация количества кадров затягивания для активного звука включает:
если количество непрерывных речевых кадров меньше установленного первого порогового значения, долговременное SNR меньше установленного порогового значения, количество кадров затягивания для активного звука равно минимальному количеству непрерывных активных кадров минус количество непрерывных активных кадров, и если усредненное общее SNR всех поддиапазонов больше установленного второго порогового значения, и количество непрерывных активных кадров больше установленного порогового значения, установку значения количества кадров затягивания для активного звука в соответствии с размером долговременного SNR.
Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
установку начального значения количества обновлений фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент; и
параметр спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра или является произведением этого отношения на коэффициент.
Согласно примеру осуществления настоящего изобретения обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума включает:
установку флага обновления фонового шума в качестве первого предварительно установленного значения;
определение того, что текущий кадр не является сигналом шума, и установку флага обновления фонового шума в качестве второго предварительно установленного значения, если истинно любое из следующих условий:
характеристика стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектрального центроида, к которому применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области также превышает установленное пороговое значение;
значение характеристики тональности или значение характеристики тональности, к которой применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектральной неравномерности каждого поддиапазона или значение характеристики спектральной неравномерности каждого поддиапазона, к которому применена сглаживающая фильтрация, меньше соответствующего установленного порогового значения; или
значение энергетического параметра кадра превышает установленное пороговое значение.
Согласно примеру осуществления настоящего изобретения вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если первым результатом принятия решения об обнаружении речевой активности является активный кадр и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука большего из следующих двух значений: значение константы и количество кадров затягивания для активного звука.
С помощью вариантов осуществления настоящего изобретения предлагается устройство для получения количества модифицированных кадров для активного звука, содержащее:
первый блок получения информации, выполненный с возможностью получения результата принятия решения об обнаружении речевой активности в текущем кадре;
второй блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
третий блок получения информации, выполненный с возможностью получения количества обновлений фонового шума; и
четвертый блок получения информации, выполненный с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
С помощью вариантов осуществления настоящего изобретения предлагается устройство для обнаружения речевой активности, содержащее:
пятый блок получения информации, выполненный с возможностью получения первого результата принятия решения об обнаружении речевой активности;
шестой блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
седьмой блок получения информации, выполненный с возможностью получения количества обновлений фонового шума;
первый блок вычисления, выполненный с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
восьмой блок получения информации, выполненный с возможностью получения второго результата принятия решения об обнаружении речевой активности; и
второй блок вычисления, выполненный с возможностью вычисления результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
На машиночитаемом носителе информации хранятся исполняемые компьютером инструкции для выполнения любых описанных выше способов.
С помощью вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука и способ и устройство для обнаружения речевой активности. Вначале выполняется получение первого результата принятия решения об обнаружении речевой активности, получение количества кадров затягивания для активного звука и получение количества обновлений фонового шума, а затем вычисляется количество модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука и выполняется получение второго результата принятия решения об обнаружении речевой активности, и, наконец, вычисляется результат принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности, благодаря чему может повышаться точность обнаружения в процессе VAD.
Другие аспекты могут быть изучены после ознакомления с прилагаемыми чертежами и подробным описанием.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На фиг. 1 показан алгоритм выполнения способа обнаружении речевой активности в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг. 2 показана схема получения результата принятия решения VAD в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг. 3 показан алгоритм выполнения способа обнаружения фонового шума в соответствии с вариантом 2 осуществления настоящего изобретения;
на фиг. 4 показан алгоритм выполнения способа коррекции текущего количества кадров затягивания для активного звука в процессе принятия решения VAD в соответствии с вариантом 3 осуществления настоящего изобретения;
на фиг. 5 показан алгоритм выполнения способа получения количества модифицированных кадров для активного звука в соответствии с вариантом 4 осуществления настоящего изобретения;
на фиг. 6 показана структурная схема устройства для получения количества модифицированных кадров для активного звука в соответствии с вариантом 4 осуществления настоящего изобретения;
на фиг. 7 показан алгоритм выполнения способа обнаружении речевой активности в соответствии с вариантом 5 осуществления настоящего изобретения; и
на фиг. 8 показана структурная схема устройства для обнаружения речевой активности в соответствии с вариантом 5 осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
Ниже со ссылкой на прилагаемые чертежи подробно описываются варианты осуществления настоящего изобретения. Следует отметить, что варианты осуществления настоящего изобретения, изложенные в данной заявке, и их признаки могут непротиворечиво комбинироваться друг с другом произвольным образом.
Шаги алгоритмов, показанных на прилагаемых чертежах, могут выполняться в компьютерной системе, например, в виде набора инструкций, исполняемых компьютером. Кроме того, хотя на алгоритмах показан логический порядок выполнения операций, в некоторых случаях показанные или описанные шаги могут выполняться в другом порядке.
Описание обозначений
Без специального указания в последующих вариантах осуществления правый верхний индекс [i] представляет порядковый номер кадра, [0] представляет текущий
кадр, и [-1] представляет предшествующий кадр. Например,
Figure 00000001
и
Figure 00000002
представляют сглаженные спектры текущего и предшествующего кадров.
Вариант 1 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения предлагается способ обнаружения речевой активности, показанный на фиг. 1 и включающий следующие шаги.
На шаге 101 осуществляется получение сигнала поддиапазонов и амплитуды спектра текущего кадра.
Настоящее изобретение описывается на примере аудиопотока с длиной кадра, составляющей 20 мс, и частотой дискретизации, равной 32 кГц. Этот способ также применим для других длин кадров и частот дискретизации.
Сигнал текущего кадра во временной области поступает в блок фильтров для выполнения вычисления фильтрации поддиапазонов с целью получения сигнала поддиапазонов блока фильтров.
В этом варианте осуществления используется 40-канальный блок фильтров, но описываемый способ также применим к блокам фильтров с другим числом каналов.
Предполагается, что входной звуковой сигнал обозначается как
Figure 00000003
параметр LC равен 40 и представляет собой количество каналов блока фильтров, wc - оконная функция с длиной окна, равной 10 и сигнал поддиапазонов вычисляется следующим образом:
Figure 00000004
где XCR и XCI являются вещественной и мнимой частями сигнала поддиапазонов. Сигнал поддиапазонов вычисляется следующим способом:
Figure 00000005
где
Figure 00000006
- временной индекс поддиапазона, и
Figure 00000007
; k - индекс поддиапазона, и 0≤k≤LC-1.
С сигналом поддиапазонов блока фильтров выполняется частотно-временное преобразование, и вычисляется амплитуда спектра.
В данном случае вариант осуществления настоящего изобретения может быть реализован посредством выполнения частотно-временного преобразования во всех поддиапазонах блока фильтров или в части поддиапазонов блока фильтров и вычисления амплитуды спектра. В соответствии с вариантом осуществления настоящего изобретения способом частотно-временного преобразования может быть дискретное преобразование Фурье (DFT, Discrete Fourier Transform), быстрое преобразование Фурье (FFT, Fast Fourier Transformation), дискретное косинусное преобразование (DCT, Discrete Cosine Transform) или дискретное синусное преобразование (DST, Discrete Sine Transform). В этом варианте осуществления в качестве примера его реализации используется DFT. Процесс вычисления выполняется следующим образом.
16-точечное преобразование DFT выполняется с данными 16 точек временной выборки в каждом поддиапазоне блока фильтров с индексами от 0 до 9 с целью дополнительного улучшения спектрального разрешения и вычисления амплитуды в каждой частотной точке, для того чтобы получить амплитуду Asp спектра.
Формула вычисления частотно-временного преобразования выглядит следующим образом:
Figure 00000008
Процесс вычисления амплитуды в каждой частотной точке выполняется следующим образом.
Вначале по приведенной ниже формуле вычисляется энергия массива XDFT[k, j] в каждой точке.
Figure 00000009
В данном случае Re(XDFT[k, j]) и Im(XDFT[k, j]) соответственно представляют вещественную и мнимую составляющие спектральных коэффициентов XDFT[k, j].
Если k является четным числом, то для вычисления амплитуды спектра в каждой частотной точке используется следующая формула:
Figure 00000010
0≤k<10,0≤j<8
Если к является нечетным числом, то для вычисления амплитуды спектра в каждой частотной точке используется следующая формула:
Figure 00000011
0≤k<10,0≤j<8
Asp является амплитудой спектра после выполнения частотно-временного преобразования.
На шаге 102 выполняется вычисление характеристик энергии кадра, характеристик спектрального центроида и характеристик стабильности во временной области для текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристик спектральной неравномерности и характеристик тональности в соответствии с амплитудой спектра.
В данном случае энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов всех поддиапазонов, то есть:
a) энергия
Figure 00000012
каждого поддиапазона блока фильтров вычисляется в соответствии с сигналом
Figure 00000013
поддиапазонов блока фильтров:
Figure 00000014
0≤k≤LC-1
В данном случае:
Figure 00000015
0≤t≤15, 0≤k≤LC.
b) Для получения энергетического параметра кадра накапливается энергия акустически чувствительных частей поддиапазонов блока фильтров или энергия всех поддиапазонов блока фильтров.
В данном случае в соответствии с психоакустической моделью человеческое ухо менее чувствительно к звуку на очень низких частотах (например, ниже 100 Гц) и на высоких частотах (например, выше 20 кГц). Например, согласно варианту осуществления настоящего изобретения предполагается, что в множестве поддиапазонов блока фильтров, упорядоченных по возрастанию частоты, поддиапазоны со второго до предпоследнего являются первичными, акустически чувствительными поддиапазонами, при этом энергия части или всех акустически чувствительных поддиапазонов блока фильтров накапливается для получения энергетического параметра 1 кадра, и вычисление выполняется следующим образом:
Figure 00000016
где
Figure 00000017
- начальный индекс поддиапазона, значения которого находятся в пределах [0…6];
Figure 00000018
- конечный индекс поддиапазона, значения которого больше 6 и меньше общего количества поддиапазонов.
Для вычисления энергетического параметра 2 кадра значение энергетического параметра 1 кадра складывается со взвешенным значением энергии части или всех поддиапазонов банка фильтров, не используемых для вычисления энергетического параметра 1 кадра, и вычисление осуществляется по следующей формуле:
Figure 00000019
где
Figure 00000020
и
Figure 00000021
- масштабные коэффициенты взвешивания в диапазоне значений [0…1], соответственно, и
Figure 00000022
- общее количество поддиапазонов.
Характеристики спектрального центроида представляют собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов.
Характеристики спектрального центроида вычисляются в соответствии с энергиями поддиапазонов банка фильтров. Характеристика спектрального центроида представляет собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов или является значением, получаемым путем применения сглаживающей фильтрации к этому отношению.
Характеристики спектрального центроида могут быть получены путем выполнения следующих дополнительных шагов:
а: разделение на поддиапазоны для вычисления характеристик спектрального центроида выполняется следующим образом:
Figure 00000023
b: значения двух характеристик спектрального центроида, которые представляют собой характеристику спектрального центроида первого интервала и характеристику спектрального центроида второго интервала, вычисляются с использованием способа разделения на интервалы для вычисления характеристики спектрального центроида, описанной в п. а, и с помощью следующей формулы:
Figure 00000024
Figure 00000025
и
Figure 00000026
представляют собой небольшие значения смещения в диапазоне (0…1). В данном случае k представляет собой номер характеристики спектрального центроида.
с: операция сглаживающей фильтрации выполняется с характеристикой sp_center[0] спектрального центроида первого интервала для получения сглаженного значения характеристики спектрального центроида, то есть, сглаженного отфильтрованного значения характеристики спектрального центроида первого интервала, при этом процесс вычисления выполняется следующим образом:
Figure 00000027
Здесь
Figure 00000028
представляет собой масштабный коэффициент сглаживающей фильтрации характеристики спектрального центроида, и
Figure 00000029
представляет собой сглаженное значение характеристики спектрального центроида в предшествующем кадре с начальным значением 1,6.
Характеристика стабильности во временной области представляет собой отношение дисперсии сумм амплитуд энергии к математическому ожиданию квадратов амплитуд энергии или является отношением, умноженным на коэффициент.
Характеристики стабильности во временной области вычисляются с использованием энергетических характеристик нескольких самых последних кадров. Согласно настоящему варианту осуществления характеристика стабильности во временной области вычисляется с использованием уровней энергии 40 последних кадров. При этом выполняются следующие шаги.
Вначале по приведенной ниже формуле вычисляются энергетические амплитуды сигналов 40 последних кадров.
Figure 00000030
где e_offset представляет собой небольшое значение смещения в диапазоне [0…0,1].
Далее путем сложения энергетических амплитуд двух смежных кадров, начиная от текущего кадра до 40-го предшествующего кадра, вычисляются 20 сумм энергетических амплитуд. Вычисление выполняется по следующей формуле:
Figure 00000031
где, если n=0,
Figure 00000032
представляет энергетическую амплитуду текущего кадра, а если n<0
Figure 00000032
представляет энергетическую амплитуду n-го кадра, предшествующего текущему.
Наконец, характеристика ltd_stable_rate0 стабильности во временной области вычисляется как отношение дисперсии к средней энергии 20 сумм амплитуд, ближайших к текущему кадру. Вычисление выполняется по следующей формуле:
Figure 00000033
Характеристика спектральной неравномерности представляет собой отношение среднего геометрического к среднему арифметическому амплитуды сглаженного спектра или является произведением этого отношения на коэффициент.
Для получения результата амплитуда спектра сглаживается:
Figure 00000034
где
Figure 00000035
и
Figure 00000036
представляют сглаженные амплитуды спектра текущего и предшествующего кадров, соответственно, и NA является количеством амплитуд спектра.
Следует отметить, что несколько предварительно определенных амплитуд спектра, описываемых в варианте осуществления настоящего изобретения, могут представлять собой часть амплитуд спектра, выбранных в соответствии с опытом специалистов в этой области техники, или могут также являться частью амплитуд спектра, выбранных из практических соображений.
Согласно настоящему варианту осуществления амплитуда спектра разделяется на три частотных области, и характеристики спектральной неравномерности вычисляются для этих трех частотных областей. Разделение выполняется следующим образом.
Разделение на поддиапазоны для вычисления характеристик спектральной неравномерности:
Figure 00000037
Пусть
Figure 00000038
представляет количество амплитуд спектра, используемых для вычисления характеристик
Figure 00000039
спектральной неравномерности:
Figure 00000040
Наконец, характеристики спектральной неравномерности текущего кадра сглаживаются для получения окончательных характеристик спектральной неравномерности текущего кадра:
Figure 00000041
где
Figure 00000042
и
Figure 00000043
представляют собой сглаженные характеристики спектральной неравномерности текущего и предшествующего кадров, соответственно.
Получение характеристик тональности осуществляется путем вычисления коэффициента корреляции внутрикадровой разницы амплитуд спектра двух смежных кадров с возможным дополнительным сглаживанием коэффициента корреляции.
Вычисление коэффициента корреляции внутрикадровой разницы амплитуд спектра сигналов двух смежных кадров выполняется следующим образом.
Характеристика тональности вычисляется в соответствии с амплитудой спектра, в данном случае характеристика тональности может вычисляться в соответствии со всеми амплитудами спектра или с частью амплитуд спектра.
Для вычисления выполняются следующие шаги:
а) вычисляются разницы амплитуд спектра двух смежных амплитуд спектра для части (не менее 8 амплитуд спектра) или всех амплитуд спектра в текущем кадре.
Если разница меньше 0, то она устанавливается равной 0, и получается группа неотрицательных разниц амплитуд спектра:
Figure 00000044
b) вычисляется коэффициент корреляции между неотрицательными разницами амплитуд спектра текущего кадра, полученными на шаге а), и неотрицательными разницами амплитуд спектра предшествующего кадра с целью получения первой характеристики тональности следующим образом:
Figure 00000045
где
Figure 00000046
- неотрицательная разница амплитуд спектра предшествующего кадра;
c) первая характеристика тональности сглаживается для получения значения второй характеристики
Figure 00000047
тональности и третьей характеристики
Figure 00000048
тональности, при этом индекс 0 в угловых скобках представляет текущий кадр, и формула вычисления выглядит следующим образом:
Figure 00000049
На шаге 103 выполняется вычисление параметров отношения сигнал/шум (SNR) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов отношения сигнал/шум текущего кадра.
Энергия фонового шума предшествующего кадра может быть получена с использованием существующего способа.
Если текущий кадр является начальным, то в качестве энергии фонового шума поддиапазонов SNR применяется начальное значение, используемое по умолчанию. В принципе, оценка энергии фонового шума поддиапазонов SNR предшествующего кадра совпадает с оценкой для текущего кадра. Оценка энергии фонового шума поддиапазонов SNR текущего кадра описывается со ссылкой на шаг 107, выполняемый в рамках настоящего варианта осуществления. В данном случае параметры SNR текущего кадра могут быть получены с использованием существующего способа. В альтернативном варианте используется следующий способ.
Во-первых, поддиапазоны банка фильтров повторно разделяются на множество поддиапазонов SNR, ниже в таблице показаны индексы разделения.
Figure 00000050
Во-вторых, энергия каждого поддиапазона SNR текущего кадра вычисляется в соответствии со способом разделения на поддиапазоны SNR. Вычисление выполняется по следующей формуле:
Figure 00000051
0≤n<13;
Затем вычисляется среднее значение отношения SNR поддиапазонов в соответствии с энергией каждого поддиапазона SNR текущего кадра и энергией фонового шума каждого поддиапазона SNR предшествующего кадра. Вычисление выполняется по следующей формуле:
Figure 00000052
где
Figure 00000053
- расчетная энергия фонового шума поддиапазонов SNR предшествующего кадра, и num_band - количество поддиапазонов SNR. Принцип получения энергии фонового шума поддиапазонов SNR предшествующего кадра совпадает с принципом получения энергии фонового шума поддиапазонов SNR текущего кадра. Процесс получения энергии фонового шума поддиапазонов SNR текущего кадра описывается ниже со ссылкой на шаг 107, выполняемый в рамках варианта 1 осуществления.
Наконец, вычисляется значение SNR2 отношения SNR всех поддиапазонов в соответствии с расчетной энергией фонового шума во всех поддиапазонах в предшествующем кадре и энергией текущего кадра:
Figure 00000054
где
Figure 00000055
- расчетная энергия фонового шума во всех поддиапазонах предшествующего кадра, и принцип получения энергии фонового шума во всех поддиапазонах предшествующего кадра совпадает с принципом получения энергии фонового шума во всех поддиапазонах текущего кадра. Процесс получения энергии фонового шума во всех поддиапазонах текущего кадра описывается ниже со ссылкой на шаг 107, выполняемый в рамках варианта 1 осуществления настоящего изобретения.
Согласно этому варианту осуществления параметры SNR включают в свой состав среднее значение SNR1 отношения SNR поддиапазонов и отношения SNR всех поддиапазонов. Энергия фонового шума во всех поддиапазонах и энергия фонового шума в каждом поддиапазоне совместно называются энергией фонового шума.
На шаге 104 выполняется вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности текущего кадра.
На шаге 104а предполагается, что сигнал текущего кадра является не тональным сигналом, и флаг tonality_frame тонального кадра используется для индикации, является ли текущий кадр тональным.
Согласно этому варианту осуществления значение 1 флага tonality_frame указывает на то, что текущий кадр является тональным, а значение 0 - на то, что текущий кадр не является тональным.
На шаге 104b определяется, превышает ли характеристика тональности или ее сглаженное значение соответствующее установленное пороговое значение
Figure 00000056
или
Figure 00000057
и если одно из указанных выше условий удовлетворяется, выполняется шаг 104 с, в противном случае выполняется шаг 104d.
В данном случае значение
Figure 00000058
находится в диапазоне [0,5…0,7], а значение
Figure 00000059
- в диапазоне [0,7…0,99].
На шаге 104 с, если характеристика lt_stable_rate0 стабильности во временной области меньше установленного порогового значения
Figure 00000060
, характеристика sp_center[1] спектрального центроида меньше установленного порогового значения spc_decision_thr1 и одна из трех характеристик спектральной неравномерности меньше соответствующего порогового значения, определяется, что текущий кадр является тональным кадром, и значение флага tonality_frame тонального кадра устанавливается равным 1; в противном случае определяется, что текущий кадр не является тональным кадром, значение tonality_frame флага тонального кадра устанавливается равным 0, и выполняется шаг 104d.
В данном случае значение
Figure 00000061
находится в диапазоне [0,01…0,25], а значение spc _decision_thr1 - в диапазоне [1,0…1,8].
На шаге 104d обновляется характеристика tonality_degree уровня тонального сигнала в соответствии с флагом tonality_frame тонального кадра. В начале обнаружения активного звука начальное значение характеристики tonality_degree уровня тонального сигнала устанавливается в диапазоне [0…1]. В различных случаях используются разные способы вычисления характеристики tonality_degree уровня тонального сигнала.
Если текущий флаг тонального кадра указывает на то, что текущий кадр
является тональным, для обновления характеристики tonality_degree уровня тонального сигнала используется следующая формула:
Figure 00000062
где tonality_degree-1, - характеристика тонального уровня предшествующего кадра, начальное значение которой находится в диапазоне [0…1], td_scale_A - коэффициент затухания, значение которого находится в диапазоне [0…1], и td_scale_B - накопленный коэффициент, значение которого находится в диапазоне [0…1].
На шаге 104е определяется, является ли текущий кадр тональным сигналом в соответствии с обновленной характеристикой tonality_degree уровня тонального сигнала, и устанавливается значение tonality_flag сигнального флага тональности.
Если характеристика tonality_degree уровня тонального сигнала больше установленного порогового значения, определяется, что текущий кадр является тональным сигналом; в противном случае определяется, что текущий кадр не является тональным сигналом.
На шаге 105 выполняется вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра, и, как показано на фиг. 2, выполняются следующие шаги.
На шаге 105а осуществляется получение значения
Figure 00000063
долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра.
Средняя энергия Efg кадров долговременной активности и средняя энергия Ebg долговременного фонового шума вычисляются и определяются на шаге 105g. Значение
Figure 00000064
долговременного SNR вычисляется следующим образом:
Figure 00000065
в этой формуле значение
Figure 00000066
долговременного SNR выражается логарифмически.
На шаге 105b выполняется вычисление среднего значения SNR2 отношения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, с целью получения значения
Figure 00000067
усредненного общего SNR всех поддиапазонов.
Вычисление выполняется по следующей формуле:
Figure 00000068
где SNR2(n) представляет собой значение SNR2 отношения SNR всех поддиапазонов в n-ом кадре, предшествующем текущему, и является общим количеством кадров в диапазоне [8…64], используемых для вычисления среднего значения.
На шаге 105с осуществляется получение порогового значения snr_thr отношения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, значением
Figure 00000069
долговременного SNR, количеством_speech_num непрерывных активных кадров и количеством continuous_noise_num непрерывных кадров шума.
Для реализации этой операции выполняются следующие шаги.
Во-первых, начальное пороговое значение shr_thr отношения SNR, находящееся в диапазоне [0,1…2], устанавливается, например, равным 1,06.
Во-вторых, выполняется первоначальная настройка порогового значения snr_thr отношения SNR в соответствии с характеристикой спектрального центроида.
Эти шаги выполняются следующим образом. Если значение sp_center[2] характеристики спектрального центроида больше установленного порогового
значения spc_vad_dec_thr1 то snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,05; в противном случае, если sp_center[1] больще spc_vad_dec_thr2, то snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,10; в противном случае, snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,40, здесь пороговые значения spc_vad_dec_thr1 и spc_vad_dec_thr2 находятся в диапазоне [1,2…2,5].
Затем выполняется вторая настройка snr_thr в соответствии с количеством непрерывных активных кадров, количеством continuous_noise_num непрерывных кадров шума, значением
Figure 00000070
усредненного общего SNR всех поддиапазонов и значением
Figure 00000071
долговременного SNR. Если количество continuous_speech_num непрерывных активных кадров больше установленного порогового значения cpn_vad_dec_thr1, то из snr_thr вычитается 0,2; в противном случае, если количество continuous_noise_num непрерывных кадров шума больше установленного порогового значения
Figure 00000072
и больше
Figure 00000073
значения смещения плюс значения
Figure 00000074
долговременного SNR, умноженного на коэффициент
Figure 00000075
, то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,1; в противном случае, если continuous_noise_num больше установленного порогового значения cpn_vad_dec_thr3, то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,2; в противном случае, если continuous_noise_num больше установленного порогового значения cpn_vad_dec_thr4, то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,1. В данном случае пороговые значения cpn_vad_dec_thr1, cpn_vad_dec_thr2, cpn_vad_dec_thr3 и cpn_vad_dec_thr4 находятся в диапазоне [2…500], а значение коэффициента
Figure 00000076
- в диапазоне [0…2]. Варианты осуществления настоящего изобретения также могут быть реализованы без выполнения настоящего шага, путем непосредственного перехода к конечному шагу.
Наконец, выполняется окончательная настройка порогового значения snr_thr отношения SNR в соответствии с долговременным значением
Figure 00000077
отношения SNR для получения порогового значения snr_thr отношения SNR текущего кадра. Формула настройки выглядит следующим образом:
Figure 00000078
где thr_offset представляет собой значение смещения, находящееся в диапазоне [0,5…3], а
Figure 00000079
представляет собой коэффициент усиления, находящийся в диапазоне [0,1...1].
На шаге 105d для текущего кадра вычисляется начальное решение VAD в соответствии с пороговым значением snr_thr отношения SNR и параметрами SNR1 и SNR2, вычисленными в текущем кадре.
Процесс вычисления выполняется следующим образом.
Если SNRI больше порогового значения snr_tnr отношения SNR, определяется, что текущий кадр является активным, и значение vad_flag флага VAD используется для индикации активности текущего кадра. Согласно настоящему варианту осуществления значение 1 используется для указания на то, что текущий кадр является активным, а значение 0 - на то, что текущий кадр не является активным. В противном случае определяется, что текущий кадр является неактивным, и значению vad_flag флага VAD присваивается значение 0.
Если SNR2 больше порогового значения snr2_thr, определяется, что текущий кадр является активным, и значение vad_flag флага VAD устанавливается равным 1. В данном случае значение snr2_tnr находится в диапазоне [1,2…5,0]. На шаге 105е модифицируется начальное решение VAD в соответствии с сигнальным флагом тональности, значением
Figure 00000080
усредненного общего SNR всех поддиапазонов, характеристикой спектрального центроида и значением
Figure 00000081
долговременного SNR.
Выполняются следующие шаги.
Если сигнальный флаг тональности указывает на то, что текущий кадр является тональным сигналом, то есть значение tonality_flag равно 1, то определяется, что текущий кадр является активным сигналом, и флаг vad_flag устанавливается равным 1.
Если значение
Figure 00000082
усредненного общего SNR всех поддиапазонов больше установленного порогового значения
Figure 00000083
плюс значения
Figure 00000084
долговременного SNR, умноженного на коэффициент
Figure 00000085
, то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1.
Согласно настоящему варианту осуществления значение
Figure 00000086
находится в диапазоне [1…4], а значение
Figure 00000087
- в диапазоне [0,1…0,6].
Если значение
Figure 00000088
усредненного общего SNR всех поддиапазонов больше установленного порогового значения
Figure 00000089
, характеристика
Figure 00000090
спектрального центроида больше установленного порогового значения
Figure 00000091
, и значение
Figure 00000092
долговременного SNR меньше установленного порогового значения
Figure 00000093
, то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение
Figure 00000094
находится в диапазоне [1,0…2,5], значение sp_center_t_thr1 находится в диапазоне [2,0…4,0], и значение
Figure 00000095
находится в диапазоне [2,5…5,0].
Если
Figure 00000096
больше установленного порогового значения
Figure 00000097
, характеристика sp_center[2] спектрального центроида больше установленного порогового значения sp_center_t_thr2, и значение
Figure 00000098
долговременного SNR меньше установленного порогового значения
Figure 00000099
, то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение
Figure 00000100
находится в диапазоне [0,8…2,0], значение sp_center_t_thr2 находится в диапазоне [2,0…4,0], и значение
Figure 00000101
находится в диапазоне [2,5…5,0].
Если
Figure 00000102
больше установленного порогового значения
Figure 00000103
, характеристика sp_center[2] спектрального центроида больше установленного порогового значения sp_center_t_thr3, и значение
Figure 00000104
долговременного SNR меньше установленного порогового значения
Figure 00000105
, то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение
Figure 00000106
находится в диапазоне [0,6…2,0], значение sp_center_t_thr3 находится в диапазоне [3,0…6,0], и значение
Figure 00000107
находится в диапазоне [2,5…5,0].
На шаге 105f выполняется обновление количества кадров затягивания для активного звука в соответствии с результатами принятия решения для нескольких предшествующих кадров, значением
Figure 00000108
долговременного SNR, значением
Figure 00000109
усредненного общего SNR всех поддиапазонов и решением VAD для текущего кадра.
Для вычисления выполняются следующие шаги.
Предварительным условием для обновления текущего количества кадров затягивания для активного звука является флаг активного звука, указывающий на то, что текущий кадр является активным звуком. Если это условие не удовлетворяется,
то текущее количество num_speech_hangover кадров затягивания не обновляется, и осуществляется переход непосредственно к шагу 105g.
Для обновления количества кадров затягивания выполняются следующие шаги.
Если количество continuous_speech_num непрерывных активных кадров меньше установленного порогового значения continuous_speech_num_thr1 и lt_snr меньше установленного порогового значения
Figure 00000110
, то текущее количество num_speech_hangover кадров затягивания для активного звука обновляется путем вычитания количества continuous_speech_num непрерывных активных кадров из минимального количества непрерывных активных кадров. В противном случае, если
Figure 00000111
больше установленного порогового значения
Figure 00000112
и количество continuous_speech_num непрерывных активных кадров больше установленного второго порогового значения continuous _speech_num_thr2 количество num_speech_hangover кадров затягивания для активного звука устанавливается в соответствии со значением lt_snr. В противном случае количество num_speech_hangover кадров затягивания не обновляется. В настоящем варианте осуществления минимальное количество непрерывных активных кадров составляет 8, и это значение может находиться в диапазоне [6…20]. Первое пороговое значение continuous_speech_num_thr1 может совпадать со вторым пороговым значением continuous_speech_num_thr2 или отличаться от него.
Выполняются следующие шаги.
Если значение
Figure 00000113
долговременного SNR больше 2,6, значение num_speech_hangover устанавливается равным 3; в противном случае, если значение
Figure 00000114
долговременного SNR больше 1,6, значение num_speech_hangover устанавливается равным 4; в противном случае значение num_speech_hangover устанавливается равным 5.
На шаге 105g выполняется наращивание затягивания активного звука в соответствии с результатом принятия решения и количеством num_speech_hangover кадров затягивания для текущего кадра с целью получения решения VAD для текущего кадра.
Способ выполняется следующим образом.
Если определяется, что текущим кадром является неактивный звук, то есть флаг VAD равен 0, и количество num_speech_hangover кадров затягивания больше 0, наращивается затягивание активного звука, то есть флаг VAD устанавливается равным 1, и значение num_speech_hangover уменьшается на 1.
Наконец, принимается решение VAD для текущего кадра.
В альтернативном варианте после шага 105d может также включаться следующий шаг: вычисление средней энергии Efg кадров долговременной активности в соответствии с начальным результатом принятия решения VAD, при этом вычисленное значение используется для решения VAD для следующего кадра; и после шага 105g может выполняться следующий шаг: вычисление средней энергии Ebg долговременного фонового шума в соответствии с результатом принятия решения VAD для текущего кадра, при этом вычисленное значение используется для решения VAD для следующего кадра.
Процесс вычисления средней энергии Efg кадров долговременной активности выполняется следующим образом:
a) если начальный результат принятия решения VAD указывает на то, что текущий кадр является активным, то есть значение флага VAD равно 1 и Et1 много раз (6 раз в настоящем варианте осуществления) превышает Ebg, то накопленное значение fg_energy средней энергии кадров долговременной активности и накопленное количество fg_energy_count средней энергии кадров долговременной активности обновляется. Способ обновления заключается в добавлении Et1 к fg_energy для получения нового значения fg_energy и добавлении 1 к fg_energy_count для получения нового значения fg_energy_count;
b) для гарантирования того, что средняя энергия кадров долговременной активности отражает самый последний уровень энергии активных кадров, если накопленное количество средней энергии кадров долговременной активности равно установленному значению fg_max_frame_num накопленное количество и накопленное значение одновременно умножаются на коэффициент затухания attenu_coef1 Согласно настоящему варианту осуществления значение fg_max_frame_num составляет 512, а значение attenu_coef1 равно 0,75;
c) накопленное значение fg_energy средней энергии кадров долговременной активности делится на накопленное количество средней энергии кадров долговременной активности для получения средней энергии кадров долговременной активности, и вычисление выполняется по следующей формуле:
Figure 00000115
Способ вычисления средней энергии Ebg долговременного фонового шума выполняется следующим образом.
Предполагается, что bg_energy_count является накопленным количеством кадров фонового шума, которое используется для регистрации количества кадров самого последнего фонового шума, учитываемых в процессе накопления энергии. bg_energy представляет собой накопленную энергию самых последних кадров фонового шума.
a) Если определяется, что текущий кадр является неактивным, значение флага
VAD равно 0, и если SNR2 меньше 1,0, то накопленная энергия bg_energy фонового шума и накопленное количество bg_energy_count кадров фонового шума обновляются. Способ обновления заключается в добавлении накопленной энергии bg_energy фонового шума к Et1 для получения нового значения bg_energy накопленной энергии фонового шума. Накопленное количество bg_energy_count кадров фонового шума складывается с 1 для получения нового количества bg_energy_count кадров фонового шума;
b) если накопленное количество bg_energy_count кадров фонового шума равно максимальному накопленному количеству кадров фонового шума, то накопленное количество и накопленная энергия одновременно умножаются на
коэффициент attenu_coef2 ослабления. В этом варианте осуществления максимальное накопленное количество для вычисления средней энергии
долговременного фонового шума составляет 512, а коэффициент attenu-coef2 ослабления равен 0,75;
c) накопленная энергия bg_energy фонового шума делится на накопленное количество кадров фонового шума для получения средней энергии долговременного фонового шума, и вычисление выполняется по следующей формуле:
Figure 00000116
Кроме того, следует отметить, что в вариант 1 осуществления настоящего изобретения могут быть также включены следующие шаги.
На шаге 106 выполняется вычисление флага обновления фонового шума в соответствии с результатом принятия решения VAD, характеристикой тональности, параметром SNR, сигнальным флагом тональности и характеристикой стабильности во временной области. Способ вычисления приводится ниже при описании варианта 2 осуществления настоящего изобретения.
На шаге 107 осуществляется получение энергии фонового шума текущего кадра в соответствии с флагом обновления фонового шума, энергетическим параметром текущего кадра и энергией фонового шума во всех поддиапазонах предшествующего кадра, и энергия фонового шума текущего кадра используется для вычисления параметра SNR для следующего кадра.
В данном случае решение об обновлении фонового шума принимается в соответствии с флагом обновления фонового шума, и если флаг обновления фонового шума равен 1, фоновый шум обновляется в соответствии с расчетным значением энергии фонового шума во всех поддиапазонах и энергии текущего кадра. Оценка энергии фонового шума включает как оценку энергии фонового шума поддиапазонов, так и как оценку энергии фонового шума во всех поддиапазонах.
a. Оценка энергии фонового шума поддиапазонов выполняется по следующей формуле:
Figure 00000117
где num_sb - количество поддиапазонов SNR, и
Figure 00000118
представляет собой энергию фонового шума k-го поддиапазонов SNR предшествующего кадра.
Figure 00000119
- коэффициент обновления фонового шума, и его значение определяется энергией фонового шума во всех поддиапазонах предшествующего кадра и энергетическим параметром текущего кадра. Процесс вычисления выполняется следующим образом.
Если энергия
Figure 00000120
фонового шума во всех поддиапазонах предшествующего кадра меньше энергии Et1 текущего кадра, это значение составляет 0,96, в противном случае значение равно 0,95.
b. Оценка энергии фонового шума во всех поддиапазонах:
Если флаг обновления фонового шума текущего кадра равен 1, накопленное значение
Figure 00000121
энергии фонового шума и накопленное количество
Figure 00000122
кадров энергии фонового шума обновляются, и вычисление выполняется по следующей формуле:
Figure 00000123
Figure 00000124
где
Figure 00000125
- накопленное значение энергии фонового шума предшествующего кадра, и
Figure 00000126
- накопленное количество кадров энергии фонового шума, вычисленное в предшествующем кадре.
c. Энергия фонового шума во всех поддиапазонах определяется с помощью отношения накопленного значения
Figure 00000127
энергии фонового шума и накопленного количества
Figure 00000128
кадров:
Figure 00000129
Определяется, равно ли
Figure 00000130
64, и если
Figure 00000131
равно 64 то накопленное значение энергии фонового шума и накопленное количество
Figure 00000131
кадров умножаются на 0,75, соответственно.
d. Энергия фонового шума поддиапазонов и накопленное значение энергии фонового шума настраиваются в соответствии с сигнальным флагом тональности, энергетическим параметром кадра и энергией фонового шума во всех поддиапазонах. Процесс вычисления выполняется следующим образом.
Если сигнальный флаг tonality_flag тональности равен 1 и значение Et1 энергетического параметра кадра меньше значения
Figure 00000132
энергии фонового шума, умноженной на коэффициент gain усиления,
Figure 00000133
Figure 00000134
В данном случае значение gain находится в диапазоне [0,3…1]. Вариант 2 осуществления изобретения
В рамках осуществления настоящего изобретения также предлагается вариант реализации способа обнаружения фонового шума, показанный на фиг. 3 и включающий следующие шаги.
На шаге 201 осуществляется получение сигнала поддиапазонов и амплитуды спектра текущего кадра.
На шаге 202 выполняется вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра.
Энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов всех поддиапазонов;
Характеристика спектрального центроида представляет собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов или является значением, получаемым путем применения сглаживающей фильтрации к этому отношению.
Характеристика стабильности во временной области представляет собой отношение дисперсии суммы энергетических амплитуд к математическому ожиданию квадратов сумм энергетических амплитуд или является отношением, умноженным на коэффициент.
Характеристика спектральной неравномерности представляет собой отношение среднего геометрического к среднему арифметическому предварительно определенных амплитуд сглаженного спектра или является произведением этого отношения на коэффициент.
На шагах 201 и 202 могут использоваться способы, приведенные выше, и эти способы повторно не описываются.
На шаге 203 определяется, является ли текущий кадр фоновым шумом путем выполнения обнаружения фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром текущего кадра.
Вначале предполагается, что текущий кадр является фоновым шумом, и флаг обновления фонового шума устанавливается равным первому предварительно установленному значению; затем, если удовлетворяется любое из указанных ниже условий, определяется, что текущий кадр не является сигналом фонового шума, и флаг обновления фонового шума устанавливается равным второму предварительно установленному значению:
Характеристика lt_stable_rate0 стабильности во временной области превышает установленное пороговое значение.
Сглаженное значение характеристики спектрального центроида больше установленного порогового значения, и характеристика стабильности во временной области также превышает установленное пороговое значение.
Значение характеристики тональности или сглаженное значение характеристики тональности больше установленного порогового значения, и значение характеристики lt_stable_rate0 стабильности во временной области превышает установленное пороговое значение.
Значение характеристики спектральной неравномерности каждого поддиапазона или сглаженное значение характеристики спектральной неравномерности каждого поддиапазона меньше соответствующего установленного порогового значения, или значение Et1 энергетического параметра кадра превышает установленное пороговое значение E_thr1.
В частности, предполагается, что текущий кадр является фоновым шумом.
В этом варианте осуществления настоящего изобретения флаг background_flag обновления фонового шума используется для индикации, является ли текущий кадр фоновым шумом, и предполагается, что если текущий кадр является фоновым шумом, флаг background_flag обновления фонового шума приравнивается к 1 (первое предварительно установленное значение), в противном случае флаг background_flag обновления фонового шума приравнивается к 0 (второе предварительно установленное значение).
Определяется, является ли текущий кадр сигналом шумом в соответствии с характеристикой стабильности во временной области, характеристикой спектрального центроида, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром текущего кадра. Если это не сигнал шума, флаг background_flag обновления фонового шума устанавливается равным 0.
Процесс выполняется следующим образом.
Определяется, превышает ли характеристика lt_stable_rate0 стабильности во временной области установленное пороговое значение
Figure 00000135
Если это так, определяется, что текущий кадр не является сигналом шума, и background_flag устанавливается равным 0. В этом варианте осуществления предварительно установленное значение
Figure 00000136
находится в диапазоне [0,8…1,6].
Определяется, превышает ли сглаженное значение характеристики спектрального центроида установленное пороговое значение sp_center_thr1, и превышает ли характеристика стабильности во временной области установленное пороговое значение lt_stable_rate_thr2. Если это так, определяется, что текущий кадр не является сигналом шума, и background_flag устанавливается равным 0. Значение sp_center thr1 находится в диапазоне [1,6…4], а значение lt_stable_rate_thr2 находится в диапазоне (0…0,1].
Определяется, превышает ли значение
Figure 00000137
характеристики тональности установленное пороговое значение
Figure 00000138
, и превышает ли значение lt_stable_rate0 характеристики стабильности во временной области установленное пороговое значение lt_stable_rate_thr3.
Если одновременно выполняются указанные выше условия, определяется, что текущий кадр не является фоновым шумом, и background_flag устанавливается равным 0. Пороговое значение tonality_rate_thr1 находится в диапазоне [0,4…0,66], а пороговое значение lt_stable_rate_thr3 находится в диапазоне [0,06…0,3].
Определяется, меньше ли значение FSSF(0) характеристики спектральной неравномерности установленного порогового значения sSMR_thr1, определяется, меньше ли значение FSSF(1) характеристики спектральной неравномерности установленного порогового значения sSMR_thr2, и определяется, меньше ли значение FSSF(2) характеристики спектральной неравномерности установленного значения sSMR_thr3.
Если одновременно выполняются указанные выше условия, определяется, что текущий кадр не является фоновым шумом, и background_flag устанавливается равным 0, в данном случае пороговые значения sSMR_thr1, sSMR_thr2 и sSMR_thr3 находятся в диапазоне [0,88…0,98]. Определяется, меньше ли значение FSSF(0) характеристики спектральной неравномерности установленного порогового значения sSMR_thr4, определяется, меньше ли значение FSSF(1) характеристики спектральной неравномерности установленного порогового значения sSMR_thr5, и определяется, меньше ли значение FSSF(2) характеристики спектральной неравномерности установленного значения sSMR_thr6 Если удовлетворяется любое из указанных выше условий, то определяется, что текущий кадр не является фоновым шумом. Флагу background_flag присваивается значение 0. Значения sSMR_thr4, sSMR_thr5 и sSMR_thr6 находятся в диапазоне [0,80…0,92].
Определяется, превышает ли значение Et1 энергетический параметра кадра установленное пороговое значение E_thr1. Если удовлетворяется указанное выше условие, то определяется, что текущий кадр не является фоновым шумом. Флагу background_flag присваивается значение 0. E_thr1 присваивается значение, соответствующе динамическому диапазону энергетического параметра кадра.
Если не обнаружено, что текущий кадр отличается от фонового шума, то указывается, что текущий кадр является фоновым шумом.
Вариант 3 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения также предлагается способ обновления количества кадров затягивания для активного звука в ходе принятия решения VAD, показанный на фиг. 4 и включающий следующие шаги.
На шаге 301 выполняется вычисление значения
Figure 00000139
долговременного SNR в соответствии с сигналами поддиапазонов.
Получение значения
Figure 00000140
долговременного SNR осуществляется путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра.
Значение
Figure 00000141
долговременного SNR может выражаться логарифмически.
На шаге 302 вычисляется значение
Figure 00000142
усредненного общего SNR всех поддиапазонов.
Получение значения
Figure 00000143
усредненного общего SNR всех поддиапазонов осуществляется путем вычисления среднего значения SNR2 отношений SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру.
На шаге 303 выполняется обновление количества кадров затягивания для активного звука в соответствии с результатами решения VAD нескольких предыдущих кадров, значением
Figure 00000144
долговременного SNR, значением
Figure 00000145
усредненного общего SNR всех поддиапазонов, параметрами SNR и решением VAD для текущего кадра.
Следует понимать, что предварительным условием для обновления текущего количества кадров затягивания для активного звука является тот факт, что флаг активного звука указывает на то, что текущий кадр является активным звуком.
Для обновления количества кадров затягивания для активного звука, если количество непрерывных активных кадров меньше установленного первого порогового значения и значение
Figure 00000146
долговременного SNR меньше установленного второго порогового значения, то количество кадров затягивания для активного звука обновляется путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; в противном случае, если значение
Figure 00000147
усредненного общего SNR всех поддиапазонов больше установленного третьего порогового значения и количество непрерывных активных кадров больше четвертого установленного значения, то количество кадров затягивания для активного звука устанавливается в соответствии со значением
Figure 00000148
долговременного SNR. В противном случае количество num_speech_hangover кадров затягивания не обновляется.
Вариант 4 осуществления настоящего изобретения
В рамках настоящего варианта осуществления предлагается способ получения количества модифицированных кадров для активного звука, показанный на фиг. 5 и включающий следующие шаги.
На шаге 401 выполняется получение результата принятия решения об обнаружении речевой активности для текущего кадра с использования способа, приведенного при описании варианта 1 осуществления настоящего изобретения.
На шаге 402 осуществляется получение количества кадров затягивания для активного звука с использованием способа, приведенного при описании варианта 3 осуществления настоящего изобретения.
На шаге 403 осуществляется получение количества update_count обновлений фонового шума. Выполняются следующие шаги.
На шаге 403а выполняется вычисление флага background_flag обновления фонового шума с использованием способа, приведенного при описании варианта 2 осуществления настоящего изобретения.
На шаге 403b, если флаг обновления фонового шума указывает на то, что существует фоновый шум и количество обновлений фонового шума меньше 1000, количество обновлений фонового шума увеличивается на 1. В данном случае начальное значение количества обновлений фонового шума устанавливается равным 0.
На шаге 404 осуществляется получение количества warm_hang_num модифицированных кадров для активного звука в соответствии с результатом принятия решения VAD для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В данном случае, если результат принятия решения VAD для текущего кадра указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, например 12, то в качестве количества модифицированных кадров для активного звука выбирается максимальное из следующих двух чисел: константа, например 20, и количество кадров затягивания для активного звука.
Кроме того, может также включаться шаг 405: модификация результата принятия решения VAD в соответствии с результатом принятия решения VAD и количеством модифицированных кадров для активного звука, то есть:
если результат принятия решения VAD указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, текущий кадр модифицируется как активный, и в то же время количество модифицированных кадров для активного звука уменьшается на единицу.
В соответствии с описанным выше способом получения количества модифицированных кадров для активного звука в рамках осуществления настоящего изобретения предлагается устройство 60 получения количества модифицированных кадров для активного звука, показанное на фиг. 6 и содержащее следующие блоки.
Первый блок 61 получения информации выполнен с возможностью получения решения VAD для текущего кадра.
Второй блок 62 получения информации выполнен с возможностью получения количества кадров затягивания для активного звука.
Третий блок 63 получения информации выполнен с возможностью получения количества обновлений фонового шума.
Четвертый блок 64 получения информации выполнен с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения VAD для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
Принципы работы и выполнения рабочих операций каждого блока устройства для получения количества модифицированных кадров для активного звука, соответствующего настоящему варианту осуществления, понятны из приведенного выше описания вариантов реализации способа, и далее эти принципы повторно не описываются.
Вариант 5 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения предлагается способ обнаружения речевой активности, показанный на фиг. 7 и включающий следующие шаги.
На шаге 501 осуществляется получение первого результата vada_flag принятия решения VAD с использования способа, приведенного при описании варианта 1 осуществления настоящего изобретения, и выполняется получение второго результата vadb_flag принятия решения VAD.
Следует отметить, что получение второго результата vadb_flag принятия решения VAD осуществляется с использованием любого из существующих способов VAD, которые здесь подробно не описываются.
На шаге 502 осуществляется получение количества кадров затягивания для активного звука с использованием способа, приведенного при описании варианта 3 осуществления настоящего изобретения.
На шаге 503 осуществляется получение количества update_count обновлений фонового шума. Выполняются следующие шаги.
На шаге 503а выполняется вычисление флага background_flag обновления фонового шума с использованием способа, приведенного при описании варианта 2 осуществления настоящего изобретения.
На шаге 503b, если флаг обновления фонового шума указывает на то, что существует фоновый шум и количество обновлений фонового шума меньше 1000, количество обновлений фонового шума увеличивается на 1. В данном случае начальное значение количества обновлений фонового шума устанавливается равным 0.
На шаге 504 осуществляется вычисление количества warm_hang_num модифицированных кадров для активного звука в соответствии с vada_flag, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В данном случае, если vada_flag указывает активный кадр и количество обновлений фонового шума меньше 12, то в качестве количества модифицированных кадров для активного звука выбирается большее из следующих двух значений: 20 и количество кадров затягивания для активного звука.
На шаге 505 выполняется вычисление результата принятия решения VAD в соответствии с vadb_flag и количеством модифицированных кадров для активного звука, то есть:
если vadb_flag указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, текущий кадр модифицируется как активный, и в то же время количество модифицированных кадров для активного звука уменьшается на единицу.
В соответствии с описанным выше способом VAD в рамках варианта осуществления настоящего изобретения также предлагается устройство 80 VAD, показанное на фиг. 8 и содержащее следующие блоки.
Пятый блок 81 получения информации выполнен с возможностью получения первого результата принятия решения об обнаружении речевой активности.
Шестой блок 82 получения информации выполнен с возможностью получения количества кадров затягивания для активного звука.
Седьмой блок 83 получения информации выполнен с возможностью получения количества обновлений фонового шума.
Первый блок 84 вычисления выполнен с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
Восьмой блок 85 получения информации выполнен с возможностью получения второго результата принятия решения об обнаружении речевой активности.
Второй блок 86 вычисления выполнен с возможностью вычисления результата принятия решения VAD в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения VAD.
Принципы работы и выполнения рабочих операций каждого блока устройства VAD, соответствующего настоящему варианту осуществления, понятны из приведенного выше описания вариантов реализации способа, и далее эти принципы повторно не описываются.
Множество современных стандартов кодирования речи, таких как AMR, AMR-WB, поддерживают функцию VAD. С точки зрения эффективности VAD этих кодеров не обладает хорошей производительностью для всех типовых фоновых шумов. Эффективность VAD этих кодеров становится особенно низкой при наличии нестабильного шума, такого как шум в помещении. Для музыкальных сигналов в процессе VAD иногда происходит ошибка, в результате чего значительно снижается качество соответствующего алгоритма обработки.
Решения, соответствующие вариантам осуществления настоящего изобретения, позволяют устранить недостатки существующих алгоритмов VAD и повысить эффективность VAD при наличии нестабильного шума, а также повысить точность обнаружения музыки. Таким образом, с помощью технических решений, соответствующих вариантам осуществления настоящего изобретения, можно достичь более высокой эффективности алгоритмов обработки речи и звукового сигнала.
Кроме того, способ обнаружения фонового шума, соответствующий варианту осуществления настоящего изобретения, может позволить более точно и стабильно выполнять оценку фонового шума, благодаря чему удается более простым образом повысить точность обнаружения при выполнении VAD. Способ обнаружения тонального сигнала в соответствии с вариантом осуществления настоящего изобретения повышает точность обнаружения тональной музыки. В то же время способ модификации количества кадров затягивания для активного звука, соответствующий варианту осуществления настоящего изобретения, может позволить при выполнении алгоритма VAD добиться лучшего баланса в том, что касается производительности и эффективности в условиях различных шумов и отношений сигнал/шум. В то же время способ настройки порогового значения отношения сигнал/шум для принятия решения VAD в соответствии с вариантом осуществления настоящего изобретения может позволить при выполнении алгоритма принятия решения VAD добиться более высокой точности при различных отношениях сигнал/шум, а также повысить эффективность и обеспечить требуемое качество.
Специалисту в этой области техники понятно, что все или часть шагов в описанных выше вариантах осуществления могут быть реализованы в ходе выполнения компьютерной программы, которая может храниться на машиночитаемом носителе информации и выполняться на соответствующей аппаратной платформе (например, в системе, устройстве, оборудовании и компоненте и т.д.), при этом в процесс выполнения может включаться один из шагов реализации способа или их комбинация.
В альтернативном варианте все или часть шагов описанных выше вариантов осуществления также могут быть реализованы с помощью интегральных схем, которые соответственно могут быть встроены в множество интегральных модулей; или, в альтернативном варианте, они могут быть реализованы посредством встраивания нескольких модулей или их компонентов в единый интегральный модуль.
Каждый аппаратный/функциональный модуль/функциональный блок в приведенных выше вариантах осуществления может быть реализован с использованием вычислительного оборудования общего назначения и может интегрироваться в единое вычислительное устройство или распределяться в сети, состоящей из множества вычислительных устройств.
Если каждый аппаратный/функциональный модуль/функциональный блок в приведенных выше вариантах осуществления реализуется в виде программных функциональных модулей и продается или используется в качестве независимого изделия, то это изделие может храниться на машиночитаемом носителе информации, который может представлять собой постоянную память, магнитный или немагнитный диск и т.д.
Промышленная применимость
Технические решения, соответствующие вариантам осуществления настоящего изобретения, позволяют устранить недостатки существующих алгоритмов VAD и повысить эффективность обнаружения VAD при наличии нестабильного шума, а также повысить точность обнаружения музыки. Таким образом, с помощью технических решений, соответствующих вариантам осуществления настоящего изобретения, можно достичь более высокой эффективности алгоритмов обработки речи и звукового сигнала. Кроме того, способ обнаружения фонового шума, соответствующий варианту осуществления настоящего изобретения, может позволить более точно и стабильно выполнять оценку фонового шума, благодаря чему удается более простым образом повысить точность обнаружения при выполнении VAD. В то же время способ обнаружения тонального сигнала в соответствии с вариантом осуществления настоящего изобретения повышает точность обнаружения тональной музыки. При этом способ модификации количества кадров затягивания для активного звука, соответствующий варианту осуществления настоящего изобретения, может позволить при выполнении алгоритма VAD добиться лучшего баланса в терминах производительности и эффективности в условиях различных шумов и отношений сигнал/шум. Способ настройки порогового значения отношения сигнал/шум для принятия решения VAD в соответствии с вариантом осуществления настоящего изобретения может позволить при выполнении алгоритма принятия решения VAD добиться более высокой точности при различных отношениях сигнал/шум, а также повысить эффективность и обеспечить требуемый уровень качества.

Claims (80)

1. Способ получения количества модифицированных кадров для активного звука, включающий:
получение результата принятия решения об обнаружении речевой активности (VAD) для текущего кадра;
получение количества кадров затягивания для активного звука;
получение количества обновлений фонового шума и
получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
2. Способ по п. 1, отличающийся тем, что получение результата принятия решения об обнаружении речевой активности для текущего кадра включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области для текущего кадра в соответствии с сигналами поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудами спектра;
вычисление отношения сигнал/шум (SNR) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов SNR текущего кадра;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра.
3. Способ по п. 2, отличающийся тем, что вычисление результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра включает:
получение долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра;
получение усредненного общего SNR всех поддиапазонов путем вычисления среднего значения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру;
получение порогового значения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
получение начального решения VAD в соответствии с пороговым значением SNR для VAD и параметром SNR и
получение результата принятия решения VAD путем обновления начального решения VAD в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR.
4. Способ по п. 1, отличающийся тем, что получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если результат принятия решения VAD указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука максимального из следующих двух значений: величина константы и количество кадров затягивания для активного звука.
5. Способ по п. 1, отличающийся тем, что получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов и получение количества кадров затягивания для активного звука путем обновления текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения VAD для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и результатом принятия решения VAD для текущего кадра.
6. Способ по п. 5, отличающийся тем, что обновление текущего количества кадров затягивания для активного звука для получения количества кадров затягивания для активного звука включает:
если количество непрерывных активных кадров меньше установленного первого порогового значения и долговременное SNR меньше установленного порогового значения, обновление количества кадров затягивания для активного звука путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; и если усредненное общее SNR всех поддиапазонов больше установленного порогового значения и количество непрерывных активных кадров больше установленного второго порогового значения, установку значения количества кадров затягивания для активного звука в соответствии со значением долговременного SNR.
7. Способ по п. 1, отличающийся тем, что получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
8. Способ по п. 7, отличающийся тем, что получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра для получения флага обновления фонового шума.
9. Способ обнаружения речевой активности, включающий:
получение первого результата принятия решения об обнаружении речевой активности;
получение количества кадров затягивания для активного звука;
получение количества обновлений фонового шума;
вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
получение второго результата принятия решения об обнаружении речевой активности и
вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
10. Способ по п. 9, отличающийся тем, что вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности включает:
если второй результат принятия решения об обнаружении речевой активности указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, установку результата принятия решения об обнаружении речевой активности в качестве активного кадра и уменьшение количества модифицированных кадров на единицу.
11. Способ по п. 9, отличающийся тем, что получение первого результата принятия решения об обнаружении речевой активности включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра;
вычисление отношения сигнал/шум текущего кадра в соответствии с энергией фонового шума, полученной на основе предшествующего кадра, энергетическим параметром кадра и энергией поддиапазона отношения сигнал/шум;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра.
12. Способ по п. 11, отличающийся тем, что вычисление первого результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра включает:
вычисление долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума, вычисленной в предшествующем кадре;
вычисление средней величины SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов;
получение порогового значения для принятия решения об обнаружении речевой активности в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
вычисление начального результата принятия решения об обнаружении речевой активности в соответствии с пороговым значением для принятия решения об обнаружении речевой активности и отношением сигнал/шум и
модификацию начального результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR для получения первого результата принятия решения об обнаружении речевой активности.
13. Способ по п. 9, отличающийся тем, что получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра и
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналами поддиапазонов и модификацию текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения об обнаружении речевой активности для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и первым результатом принятия решения об обнаружении речевой активности.
14. Способ по п. 13, отличающийся тем, что модификация текущего количества кадров затягивания для активного звука включает:
если количество непрерывных речевых кадров меньше установленного первого порогового значения, долговременное SNR меньше установленного порогового значения, количество кадров затягивания для активного звука равно минимальному количеству непрерывных активных кадров минус количество непрерывных активных кадров, и если усредненное общее SNR всех поддиапазонов больше установленного второго порогового значения и количество непрерывных активных кадров больше установленного порогового значения, установку значения количества кадров затягивания для активного звука в соответствии с размером долговременного SNR.
15. Способ по п. 9, отличающийся тем, что получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
16. Способ по п. 15, отличающийся тем, что вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
17. Способ по п. 15, отличающийся тем, что получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра для получения флага обновления фонового шума.
18. Способ по п. 9, отличающийся тем, что вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если первым результатом принятия решения об обнаружении речевой активности является активный кадр и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука большего из следующих двух значений: значение константы и количество кадров затягивания для активного звука.
19. Устройство для получения количества модифицированных кадров для активного звука, содержащее:
первый блок получения информации, выполненный с возможностью получения результата принятия решения об обнаружении речевой активности в текущем кадре;
второй блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
третий блок получения информации, выполненный с возможностью получения количества обновлений фонового шума и
четвертый блок получения информации, выполненный с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
20. Устройство для обнаружения речевой активности, содержащее:
пятый блок получения информации, выполненный с возможностью получения первого результата принятия решения об обнаружении речевой активности;
шестой блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
седьмой блок получения информации, выполненный с возможностью получения количества обновлений фонового шума;
первый блок вычисления, выполненный с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
восьмой блок получения информации, выполненный с возможностью получения второго результата принятия решения об обнаружении речевой активности; и
второй блок вычисления, выполненный с возможностью вычисления результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
RU2017145122A 2015-06-26 2015-11-05 Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности RU2684194C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510364255.0 2015-06-26
CN201510364255.0A CN106328169B (zh) 2015-06-26 2015-06-26 一种激活音修正帧数的获取方法、激活音检测方法和装置
PCT/CN2015/093889 WO2016206273A1 (zh) 2015-06-26 2015-11-05 一种激活音修正帧数的获取方法、激活音检测方法和装置

Publications (1)

Publication Number Publication Date
RU2684194C1 true RU2684194C1 (ru) 2019-04-04

Family

ID=57584376

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017145122A RU2684194C1 (ru) 2015-06-26 2015-11-05 Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности

Country Status (8)

Country Link
US (1) US10522170B2 (ru)
EP (1) EP3316256A4 (ru)
JP (1) JP6635440B2 (ru)
KR (1) KR102042117B1 (ru)
CN (1) CN106328169B (ru)
CA (1) CA2990328C (ru)
RU (1) RU2684194C1 (ru)
WO (1) WO2016206273A1 (ru)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN106328169B (zh) 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN108962284B (zh) * 2018-07-04 2021-06-08 科大讯飞股份有限公司 一种语音录制方法及装置
CN111599345B (zh) * 2020-04-03 2023-02-10 厦门快商通科技股份有限公司 语音识别算法评估方法、系统、移动终端及存储介质
US11636872B2 (en) * 2020-05-07 2023-04-25 Netflix, Inc. Techniques for computing perceived audio quality based on a trained multitask learning model
CN112420079B (zh) * 2020-11-18 2022-12-06 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US20230046530A1 (en) * 2021-08-03 2023-02-16 Bard College Enhanced bird feeders and baths

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
WO2012146290A1 (en) * 2011-04-28 2012-11-01 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
US20130054236A1 (en) * 2009-10-08 2013-02-28 Telefonica, S.A. Method for the detection of speech segments
CN103903634A (zh) * 2012-12-25 2014-07-02 中兴通讯股份有限公司 激活音检测及用于激活音检测的方法和装置
RU2536343C2 (ru) * 2013-04-15 2014-12-20 Открытое акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
WO2004111996A1 (ja) 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
CN101322181B (zh) * 2005-11-30 2012-04-18 艾利森电话股份有限公司 有效的语音流转换方法及装置
WO2007091956A2 (en) 2006-02-10 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) A voice detector and a method for suppressing sub-bands in a voice detector
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
EP2380168A1 (en) * 2008-12-19 2011-10-26 Nokia Corporation An apparatus, a method and a computer program for coding
CN101841587B (zh) * 2009-03-20 2013-01-09 联芯科技有限公司 信号音检测方法和装置以及移动终端噪声抑制方法
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102693720A (zh) * 2009-10-15 2012-09-26 华为技术有限公司 一种音频信号检测方法和装置
EP2491559B1 (en) * 2009-10-19 2014-12-10 Telefonaktiebolaget LM Ericsson (publ) Method and background estimator for voice activity detection
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
JP5936377B2 (ja) * 2012-02-06 2016-06-22 三菱電機株式会社 音声区間検出装置
US10276178B2 (en) 2013-08-30 2019-04-30 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
FI125723B (en) * 2014-07-11 2016-01-29 Suunto Oy Portable activity tracking device and associated method
CN106328169B (zh) 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
US20130054236A1 (en) * 2009-10-08 2013-02-28 Telefonica, S.A. Method for the detection of speech segments
WO2012146290A1 (en) * 2011-04-28 2012-11-01 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
CN103903634A (zh) * 2012-12-25 2014-07-02 中兴通讯股份有限公司 激活音检测及用于激活音检测的方法和装置
RU2536343C2 (ru) * 2013-04-15 2014-12-20 Открытое акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления
CN104424956A (zh) * 2013-08-30 2015-03-18 中兴通讯股份有限公司 激活音检测方法和装置

Also Published As

Publication number Publication date
CA2990328A1 (en) 2016-12-29
WO2016206273A1 (zh) 2016-12-29
CN106328169A (zh) 2017-01-11
KR102042117B1 (ko) 2019-11-08
US10522170B2 (en) 2019-12-31
KR20180008647A (ko) 2018-01-24
JP6635440B2 (ja) 2020-01-22
JP2018523155A (ja) 2018-08-16
CN106328169B (zh) 2018-12-11
EP3316256A4 (en) 2018-08-22
EP3316256A1 (en) 2018-05-02
CA2990328C (en) 2021-09-21
US20180158470A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
RU2684194C1 (ru) Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
US9978398B2 (en) Voice activity detection method and device
US9672841B2 (en) Voice activity detection method and method used for voice activity detection and apparatus thereof
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP6606167B2 (ja) 音声区間検出方法及び装置
CN112992188B (zh) 一种激活音检测vad判决中信噪比门限的调整方法及装置
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
EP2362389B1 (en) Noise suppressor
CN110390947B (zh) 声源位置的确定方法、系统、设备和存储介质
CN112530450A (zh) 频域中的样本精度延迟识别
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
WO2022068440A1 (zh) 啸叫抑制方法、装置、计算机设备和存储介质
KR100931181B1 (ko) 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체
EP2760022B1 (en) Audio bandwidth dependent noise suppression