RU2666337C2 - Способ обнаружения звукового сигнала и устройство - Google Patents

Способ обнаружения звукового сигнала и устройство Download PDF

Info

Publication number
RU2666337C2
RU2666337C2 RU2016139717A RU2016139717A RU2666337C2 RU 2666337 C2 RU2666337 C2 RU 2666337C2 RU 2016139717 A RU2016139717 A RU 2016139717A RU 2016139717 A RU2016139717 A RU 2016139717A RU 2666337 C2 RU2666337 C2 RU 2666337C2
Authority
RU
Russia
Prior art keywords
subband
audio signal
ssnr
signal
determined
Prior art date
Application number
RU2016139717A
Other languages
English (en)
Other versions
RU2016139717A (ru
Inventor
Чжэ ВАН
Original Assignee
Хуавэй Текнолоджиз Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Хуавэй Текнолоджиз Ко., Лтд. filed Critical Хуавэй Текнолоджиз Ко., Лтд.
Publication of RU2016139717A publication Critical patent/RU2016139717A/ru
Application granted granted Critical
Publication of RU2666337C2 publication Critical patent/RU2666337C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Изобретение относится к области техники обработки сигналов и предназначено для обнаружения звукового сигнала. Технический результат – обеспечение возможности точного различия активной речи и неактивной речи. Данный способ включает в себя: определение входного звукового сигнала в качестве подлежащего определению звукового сигнала; определение расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, при этом расширенное SSNR больше опорного SSNR; и сравнение расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом. 4 н. и 18 з.п. ф-лы, 10 ил.

Description

Область техники, к которой относится изобретение
[0001] Варианты осуществления настоящего изобретения относятся к области техники обработки сигналов и, в частности, к способу обнаружения звукового сигнала и устройству.
Уровень техники
[0002] Обнаружение (VAD) речевой активности является ключевой технологией, широко используемой в таких областях техники, как передача речи и человеко-машинное взаимодействие. VAD может также упоминаться в качестве обнаружения (SAD) звуковой активности. VAD используется для обнаружения того, присутствует ли активный сигнал во входном звуковом сигнале, причем активный сигнал схож с неактивным сигналом (например, окружающий фоновый шум и приглушенная речь). Обычные активные сигналы включают в себя речь, музыку, и т.п. Принцип действия VAD заключается в том, что один или более характерных параметров, извлекаются из входного звукового сигнала, одно или более характерных значений определяются согласно упомянутому одному или более характерным параметрам, и затем упомянутое одно или более характерных значений сравнивается с одной или более пороговыми величинами.
[0003] В предшествующем уровне техники способ обнаружения активного сигнала на основе сегментного отношения (SSNR) сигнал-шум включает в себя: разделение входного звукового сигнала на множество подполосных сигналов в некоторой полосе частот, вычисление энергии звукового сигнала в каждой подполосе и сравнение энергии звукового сигнала в каждой подполосе с оцененной энергией сигнала фонового шума в каждой подполосе для получения отношения (SNR) сигнал-шум звукового сигнала в каждой подполосе; и затем определение SSNR согласно подполосному SNR каждой подполосы и сравнение SSNR с заданной пороговой величиной принятия решения относительно VAD, причем если SSNR превышает пороговую величину принятия решения относительно VAD, то звуковой сигнал является активным сигналом, или если SSNR не превышает пороговую величину принятия решения относительно VAD, то звуковой сигнал является неактивным сигналом.
[0004] Обычный способ вычисления SSNR заключается в сложении всех подполосных SNR звукового сигнала, и полученным результатом является SSNR. Например, SSNR может быть определен посредством использования формулы 1.1:
Figure 00000001
Формула 1.1
где k указывает k-ую подполосу, snr(k) указывает подполосное SNR k-ой подполосы и N указывает полное количество подполос, на которые разделен звуковой сигнал.
[0005] При использовании вышеупомянутого способа вычисления SSNR для обнаружения активной речи может происходить необнаружение активной речи.
Сущность изобретения
[0006] В вариантах осуществления настоящего изобретения предложен способ обнаружения звукового сигнала и устройство, которые могут точно различать активную речь и неактивную речь.
[0007] Согласно первому аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; определяют расширенное сегментное отношение (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и сравнивают расширенное SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом.
[0008] Со ссылкой на первый аспект, в первом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
[0009] Со ссылкой на первый возможный вариант реализации первого аспекта, во втором возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0010] Со ссылкой на первый возможный вариант реализации первого аспекта, в третьем возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0011] Со ссылкой на первый возможный вариант реализации первого аспекта, в четвертом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0012] Со ссылкой на первый аспект, в пятом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.
[0013] Со ссылкой на второй возможный вариант реализации или третий возможный вариант реализации первого аспекта, в шестом возможном варианте реализации первого аспекта, этап определения расширенного SSNR звукового сигнала включает в себя этап, на котором: определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
[0014] Со ссылкой на первый аспект или любой возможный вариант реализации первого возможного варианта реализации первого аспекта по пятый возможный вариант реализации первого аспекта, в седьмом возможном варианте реализации первого аспекта, этап определения расширенного SSNR звукового сигнала включает в себя этап, на котором: определяют опорное SSNR звукового сигнала; и определяют расширенное SSNR согласно опорному SSNR звукового сигнала.
[0015] Со ссылкой на седьмой возможный вариант реализации первого аспекта, в восьмом возможном варианте реализации первого аспекта, этап определения расширенного SSNR согласно опорному SSNR звукового сигнала включает в себя этап, на котором: определяют расширенное SSNR посредством использования следующей формулы:
Figure 00000002
, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.
[0016] Со ссылкой на седьмой возможный вариант реализации первого аспекта, в девятом возможном варианте реализации первого аспекта, этап определения расширенного SSNR согласно опорному SSNR звукового сигнала включает в себя этап, на котором: определяют расширенное SSNR посредством использования следующей формулы:
Figure 00000003
, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения.
[0017] Со ссылкой на первый аспект или любой из предшествующих возможных вариантов реализации первого аспекта, в десятом возможном варианте реализации первого аспекта, перед этапом сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD, способ дополнительно включает в себя этап, на котором: используют заданный алгоритм для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и этап сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом, включает в себя этап, на котором: сравнивают расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0018] Согласно второму аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и сравнивают расширенное SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0019] Со ссылкой на второй аспект, в первом возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0020] Со ссылкой на первый возможный вариант реализации второго аспекта, во втором возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0021] Со ссылкой на первый возможный вариант реализации второго аспекта, в третьем возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0022] Согласно третьему аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; получают опорное SSNR звукового сигнала; используют заданный алгоритм для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и сравнивают опорное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0023] Со ссылкой на третий аспект, в первом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0024] Со ссылкой на первый возможный вариант реализации третьего аспекта, во втором возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0025] Со ссылкой на первый возможный вариант реализации третьего аспекта, в третьем возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0026] Со ссылкой на первый возможный вариант реализации третьего аспекта, в четвертом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0027] Со ссылкой на третий аспект, в пятом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.
[0028] Согласно четвертому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью определения расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR; и третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0029] Со ссылкой на четвертый аспект, в первом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
[0030] Со ссылкой на первый возможный вариант реализации четвертого аспекта, во втором возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0031] Со ссылкой на первый возможный вариант реализации четвертого аспекта, в третьем возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0032] Со ссылкой на первый возможный вариант реализации четвертого аспекта, в четвертом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0033] Со ссылкой на четвертый аспект, в пятом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.
[0034] Со ссылкой на второй возможный вариант реализации четвертого аспекта или третий возможный вариант реализации четвертого аспекта, в шестом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
[0035] Со ссылкой на четвертый аспект или любой возможный вариант реализации первого возможного варианта реализации четвертого аспекта по пятый возможный вариант реализации четвертого аспекта, в седьмом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения опорного SSNR звукового сигнала; и определения расширенного SSNR согласно опорному SSNR звукового сигнала.
[0036] Со ссылкой на седьмой возможный вариант реализации четвертого аспекта, в восьмом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000002
, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.
[0037] Со ссылкой на седьмой возможный вариант реализации четвертого аспекта, в девятом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000003
, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения.
[0038] Со ссылкой на четвертый аспект или любой из предшествующих возможных вариантов реализации четвертого аспекта, в десятом возможном варианте реализации четвертого аспекта, устройство дополнительно включает в себя четвертый блок определения, при этом четвертый блок определения выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и третий блок определения выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0039] Согласно пятому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0040] Со ссылкой на пятый аспект, в первом возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
[0041] Со ссылкой на первый возможный вариант реализации пятого аспекта, во втором возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0042] Со ссылкой на первый возможный вариант реализации пятого аспекта, в третьем возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0043] Согласно шестому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью получения опорного SSNR звукового сигнала; третий блок определения, выполненный с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и четвертый блок определения, выполненный с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0044] Со ссылкой на шестой аспект, в первом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0045] Со ссылкой на первый возможный вариант реализации шестого аспекта, во втором возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0046] Со ссылкой на первый возможный вариант реализации шестого аспекта, в третьем возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0047] Со ссылкой на первый возможный вариант реализации шестого аспекта, в четвертом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0048] Со ссылкой на шестой аспект, в пятом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.
[0049] Согласно способу, предложенному в упомянутых вариантах осуществления настоящего изобретения, может быть определена характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружений активного сигнала могла быть уменьшена.
Краткое описание чертежей
[0050] Для описания технических решений в вариантах осуществления настоящего изобретения более ясно далее кратко описаны сопроводительные чертежи, необходимые для описания вариантов осуществления настоящего изобретения. Ясно, что на сопроводительных чертежах в последующем описании всего лишь показаны некоторые варианты осуществления настоящего изобретения, и средний специалист в уровне техники также может создать другие чертежи из этих сопроводительных чертежей без приложения творческих усилий.
[0051] На Фиг.1 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;
[0052] На Фиг.2 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;
[0053] На Фиг.3 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;
[0054] На Фиг.4 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;
[0055] На Фиг.5 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения;
[0056] На Фиг.6 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения;
[0057] На Фиг.7 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения;
[0058] На Фиг.8 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения;
[0059] На Фиг.9 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения; и
[0060] На Фиг.10 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения.
Осуществление изобретения
[0061] Далее ясно описаны технические решения в вариантах осуществления настоящего изобретения со ссылкой на сопроводительные чертежи в вариантах осуществления настоящего изобретения. Ясно, что описанные варианты осуществления являются всего лишь некоторыми, а не всеми, вариантами осуществления настоящего изобретения. Все другие варианты осуществления, полученные средним специалистом в уровне техники на основе приведенных вариантов осуществления настоящего изобретения без приложения творческих усилий, покрываются объемом защиты настоящего изобретения.
[0062] На Фиг.1 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.
[0063] 101. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0064] 102. Определение расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.
[0065] 103. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0066] В данном варианте осуществления настоящего изобретения, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, при этом может использоваться опорная пороговая величина принятия решения относительно VAD, или может использоваться уменьшенная пороговая величина принятия решения относительно VAD, полученная после того, как опорная пороговая величина принятия решения относительно VAD уменьшена посредством использования заданного алгоритма. Опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм.
[0067] При использовании обычного способа вычисления SSNR для вычисления SSNR-отношений некоторых звуковых сигналов SSNR-отношения этих звуковых сигналов могут быть ниже заданной пороговой величины принятия решения относительно VAD. Однако, фактически, эти звуковые сигналы являются активными звуковыми сигналами. Это обусловлено характерными особенностями этих звуковых сигналов. Например, в случае, при котором окружающее SNR является относительно низким, подполосное SNR высокочастотной части значительно уменьшено. Кроме того, поскольку обычно используется психоакустическая теория для выполнения разделения на подполосы, то подполосное SNR высокочастотной части вносит относительно малый вклад в SSNR. В данном случае, для некоторых сигналов, таких как безречевой сигнал, энергия которого, главным образом, сконцентрирована в относительно высокочастотной части, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD, что обуславливает необнаружение активного сигнала. В другом примере, для некоторых звуковых сигналов, распределение энергии этих звуковых сигналов является относительно плоским по спектру, но полная энергия этих звуковых сигналов является относительно низкой. Поэтому, в случае, при котором окружающее SNR является относительно низким, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD. В способе, изображенном на Фиг.1, используется подходящее увеличение SSNR, так что SSNR может быть больше пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть эффективно уменьшена.
[0068] На Фиг.2 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.
[0069] 201. Определение подполосного SNR входного звукового сигнала.
[0070] Спектр входного звукового сигнала разделяется на N подполос, где N является положительным целым числом, больше 1. В частности, для разделения спектра звукового сигнала может использоваться психоакустическая теория. В случае, при котором для разделения спектра звукового сигнала используется психоакустическая теория, ширина подполосы ближе к низкой частоте является более узкой, а ширина подполосы ближе к высокой частоте является более широкой. Конечно, спектр звукового сигнала может также быть разделен и по-другому, например, посредством равномерного разделения спектра звукового сигнала на N подполос. Осуществляется вычисление подполосного SNR каждой подполосы входного звукового сигнала, при этом подполосное SNR является отношением энергии подполосы к энергии фонового шума в данной подполосе. Энергия фонового шума в подполосе в целом является оцененным значением, полученным посредством оценки оценщиком фонового шума. Вариант использования оценщика фонового шума для оценки энергии фонового шума, соответствующей каждой подполосе, осуществляется согласно хорошо известной технологии в данной области техники. Поэтому, в данном документе не нужно пописывать какие-либо подробности. Специалист в данной области техники может быть понятно, что подполосное SNR может быть прямым отношением энергий или может быть другой формой выражения прямого отношения энергий, такой как логарифмическое подполосное SNR. Кроме того, специалист в данной области техники дополнительно может быть понятно, что подполосное SNR может также быть подполосным SNR, полученным после выполнения над прямым подполосном SNR линейной или нелинейной обработки, или может быть другим преобразованием подполосного SNR. Прямое отношение энергий подполосного SNR изображено в следующей формуле:
Figure 00000004
Формула 1.2
в которой snr(k) указывает подполосное SNR k-ой подполосы, а E(k) и En(k) соответственно указывают энергию k-ой подполосы и энергию фонового шума в k-ой подполосе. Логарифмическое подполосное SNR может быть указано следующим образом:
Figure 00000005
, где
Figure 00000006
указывает логарифмическое подполосное SNR k-ой подполосы, и snr(k) указывает подполосное SNR, которым обладает k-ая подполоса и которое получено через вычисление посредством использования формулы 1.2. Специалисту в данной области техники может быть дополнительно понятно, что подполосная энергия, используемая для вычисления подполосного SNR, может быть энергией входного звукового сигнала в некоторой подполосе, или может быть энергией, полученной после вычитания энергии фонового шума в некоторой подполосе из энергии входного звукового сигнала в данной подполосе. Вычисление SNR выполняется должным образом без отступления от сущности SNR.
[0071] 202. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0072] Необязательно, в одном варианте осуществления, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала может включать в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR, которым обладает звуковой сигнал и которое определено на этапе 201.
[0073] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0074] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества. В данном варианте осуществления настоящего изобретения высокочастотная граница и низкочастотная граница одного кадра звукового сигнала являются относительными, то есть часть, имеющая относительно высокую частоту, является высокочастотной границей, а часть, имеющая относительно низкую частоту, является низкочастотной границей.
[0075] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0076] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0077] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0078] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве кадров шумового сигнала, собирается статистика о количестве подполос, подполосные SNR которых меньше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих кадров образцов шума и чьи подполосные SNR меньше третьей заданной пороговой величины, было больше четвертого количества
[0079] Необязательно, в другом варианте осуществления, то, является ли входной звуковой сигнал подлежащим определению звуковым сигналом, может быть определено посредством определения того, является ли входной звуковой сигнал безречевым сигналом. В данном случае, не нужно определять подполосное SNR звукового сигнала, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. Другими словами, этап 201 не нужно выполнять, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. В частности, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения частоты (ZCR) переходов через нуль во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0080] 203. Определение расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.
[0081] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Из формулы 1.1 можно видеть, что при осуществлении вычисления опорного SSNR весовая обработка не выполняется над подполосным SNR какой-либо подполосы, то есть при осуществлении вычисления опорного SSNR весовые коэффициенты подполосных SNR всех подполос равны.
[0082] Необязательно, в одном варианте осуществления, в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества, или в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества, определение расширенного SSNR звукового сигнала включает в себя: определение весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определение расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
[0083] Например, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, и оба отношения сигнал-шум подполосы 18 и подполосы 19 больше первого заданного значения T1, могут быть добавлены четыре подполосы, то есть с подполосы 20 по подполосу 23. В частности, подполоса 18 и подполоса 19, чьи отношения сигнал-шум больше T1, могут быть соответственно разделены на подполосу 18a, подполосу 18b и подполосу 18c; и подполосу 19a, подполосу 19b и подполосу 19c. В данном случае, подполоса 18 может быть рассмотрена в качестве родительской подполосы для подполосы 18a, подполосы 18b и подполосы 18c, и подполоса 19 может быть рассмотрена в качестве родительской подполосы для подполосы 19a, подполосы 19b и подполосы 19c. Значения отношений сигнал-шум подполосы 18a, подполосы 18b и подполосы 18c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы, а значения отношений сигнал-шум подполосы 19a, подполосы 19b и подполосы 19c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы. По такому принципу, 20 подполос, которые первоначально получены через разделение, повторно разделяются на 24 подполосы. Поскольку VAD выполнен все еще согласно этим 20 подполосам в течение обнаружения активного сигнала, то эти 24 подполосы должны быть отображены обратно на эти 20 подполос для определения расширенного SSNR. В заключении, когда расширенное SSNR определяется посредством увеличения количества высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, вычисление может быть выполнено посредством использования следующей формулы:
Figure 00000007
Формула 1.3
в которой
Figure 00000008
указывает расширенное SSNR, а snr(k) указывает подполосное SNR k-ой подполосы.
[0084] Если SSNR, полученное через вычисление посредством использования формулы 1.1, является опорным SSNR, то опорное SSNR, полученное посредством вычисления, представляет собой
Figure 00000009
. Ясно, для звукового сигнала первого типа, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.3, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.
[0085] В другом примере, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, snr(18) и snr(19) оба больше первого заданного значения T1, и с snr(0) по snr(17) все меньше второй заданной пороговой величины T2, то расширенное SSNR может быть определено следующим образом:
Figure 00000010
Формула 1.4
в которой SSNR' указывает расширенное SSNR, snr(k) указывает подполосное SNR k-ой подполосы,
Figure 00000011
и
Figure 00000012
являются параметрами увеличения весового коэффициента, и значения
Figure 00000011
и
Figure 00000012
делают
Figure 00000013
больше по сравнению с
Figure 00000014
. Ясно, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.4, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.
[0086] Необязательно, в другом варианте осуществления, определение расширенного SSNR звукового сигнала включает в себя: определение опорного SSNR звукового сигнала и определение расширенного SSNR согласно опорному SSNR звукового сигнала.
[0087] Необязательно, расширенное SSNR может быть определено посредством использования следующей формулы:
Figure 00000015
Формула 1.5
в которой SSNR указывает опорное SSNR звукового сигнала, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,05, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0088] Необязательно, расширенное SSNR может быть определено посредством использования следующей формулы:
Figure 00000016
Формула 1.6
в которой SSNR указывает исходное SSNR звукового сигнала, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 15, f(lsnr) может быть равна 1,05, и y(lsnr) может быть равна 1; и когда lsnr меньше 15, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0089] 204. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0090] В частности, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
[0091] Необязательно, в другом варианте осуществления, перед сравнением расширенного SSNR с пороговой величиной принятия решения относительно VAD, способ может дополнительно включать в себя: использование заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD в частности включает в себя: сравнение расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом. Опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.
[0092] Согласно способу, изображенному на Фиг.2, определяется характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD. По такому принципу, доля необнаружений активного сигнала может быть уменьшена.
[0093] На Фиг.3 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.
[0094] 301. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0095] 302. Определение весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы.
[0096] 303. Определение расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.
[0097] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Из формулы 1.1 можно видеть, что при осуществлении вычисления опорного SSNR весовая обработка не выполняется над подполосным SNR какой-либо подполосы, то есть при осуществлении вычисления опорного SSNR весовые коэффициенты подполосных SNR всех подполос равны.
[0098] Например, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, и оба отношения сигнал-шум подполосы 18 и подполосы 19 больше первого заданного значения T1, то могут быть добавлены четыре подполосы, то есть с подполосы 20 по подполосу 23. В частности, подполоса 18 и подполоса 19, чьи отношения сигнал-шум больше T1, могут быть соответственно разделены на подполосу 18a, подполосу 18b и подполосу 18c; и подполосу 19a, подполосу 19b и подполосу 19c. В данном случае, подполоса 18 может быть рассмотрена в качестве родительской подполосы для подполосы 18a, подполосы 18b и подполосы 18c, и подполоса 19 может быть рассмотрена в качестве родительской подполосы для подполосы 19a, подполосы 19b и подполосы 19c. Значения отношений сигнал-шум подполосы 18a, подполосы 18b и подполосы 18c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы, и значения отношений сигнал-шум подполосы 19a, подполосы 19b и подполосы 19c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы. По такому принципу, 20 подполос, которые первоначально получены через разделение, повторно разделяются на 24 подполосы. Поскольку VAD по-прежнему выполнен согласно этим 20 подполосам в течение обнаружения активного сигнала, то эти 24 подполосы должны быть отображены обратно на эти 20 подполос для определения расширенного SSNR. В заключении, когда расширенное SSNR определяется посредством увеличения количества высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, вычисление может быть выполнено посредством использования следующей формулы:
Figure 00000017
Формула 1.3
в которой SSNR' указывает расширенное SSNR, и snr(k) указывает подполосное SNR k-ой подполосы.
[0100] Если SSNR, полученное через вычисление посредством использования формулы 1.1, является опорным SSNR, то опорное SSNR, полученное посредством вычисления, представляет собой
Figure 00000018
. Ясно, для звукового сигнала первого типа, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.3, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.
[0101] В другом примере, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, snr(18) и snr(19) оба больше первого заданного значения T1, и с snr(0) по snr(17) все меньше второй заданной пороговой величины T2, то расширенное SSNR может быть определено посредством использования следующей формулы:
Figure 00000019
Формула 1.4
в которой SSNR' указывает расширенное SSNR, snr(k) указывает подполосное SNR k-ой подполосы, a 1 и a 2 являются параметрами увеличения весового коэффициента, и значения a 1 и a 2 делают
Figure 00000020
больше по сравнению с
Figure 00000021
. Ясно, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.4, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.
[0102] 304. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0103] В частности, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
[0104] Согласно способу, изображенному на Фиг.3, может быть определена характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.
[0105] Дополнительно, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0106] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0107] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0108] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0109] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.
[0110] В вариантах осуществления с Фиг.1 по Фиг.3 то, является ли входной звуковой сигнал активным сигналом, определяется посредством использования расширенного SSNR. В способе, изображенном на Фиг.4, то, является ли входной звуковой сигнал активным сигналом, определяется посредством уменьшения пороговой величины принятия решения относительно VAD.
[0111] На Фиг.4 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.
[0112] 401. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0113] Необязательно, в одном варианте осуществления, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR, которым обладает звуковой сигнал и который определен на этапе 201.
[0114] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0115] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0116] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0117] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0118] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0119] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве кадров шумового сигнала, собирается статистика о количестве подполос, подполосные SNR которых меньше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих кадров образцов шума и чьи подполосные SNR меньше третьей заданной пороговой величины, было больше четвертого количества
[0120] Необязательно, в другом варианте осуществления, то, является ли входной звуковой сигнал подлежащим определению звуковым сигналом, может быть определено посредством определения того, является ли входной звуковой сигнал безречевым сигналом. В данном случае, не нужно определять подполосное SNR звукового сигнала, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. Другими словами, этап 201 не нужно выполнять, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. В частности, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0121] 402. Получение опорного SSNR звукового сигнала.
[0122] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.
[0123] 403. Использование заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.
[0124] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.
[0125] 404. Сравнение опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0126] При использовании обычного способа вычисления SSNR для вычисления SSNR-отношений некоторых звуковых сигналов SSNR-отношения этих звуковых сигналов могут быть ниже заданной пороговой величины принятия решения относительно VAD. Однако, фактически, эти звуковые сигналы являются активными звуковыми сигналами. Это обусловлено характерными особенностями этих звуковых сигналов. Например, в случае, при котором окружающее SNR является относительно низким, подполосное SNR высокочастотной части значительно уменьшено. Кроме того, поскольку обычно используется психоакустическая теория для выполнения разделения на подполосы, то подполосное SNR высокочастотной части вносит относительно малый вклад в SSNR. В данном случае, для некоторых сигналов, таких как безречевой сигнал, энергия которого, главным образом, сконцентрирована в относительно высокочастотной части, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD, что обуславливает необнаружение активного сигнала. В другом примере, для некоторых звуковых сигналов, распределение энергии этих звуковых сигналов является относительно плоским по спектру, но полная энергия этих звуковых сигналов является относительно низкой. Поэтому, в случае, при котором окружающее SNR является относительно низким, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD. В способе, изображенном на Фиг.4, используется уменьшение пороговой величины принятия решения относительно VAD, так чтобы SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, было больше пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть эффективно уменьшена.
[0127] На Фиг.5 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.5, может выполнять все этапы, изображенные на Фиг.1 или Фиг.2. Как показано на Фиг.5, устройство 500 включает в себя первый блок 501 определения, второй блок 502 определения и третий блок 503 определения.
[0128] Первый блок 501 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0129] Второй блок 502 определения выполнен с возможностью определения расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR.
[0130] Третий блок 503 определения выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом.
[0131] Устройство 500, изображенное на Фиг.5, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0132] Необязательно, в одном варианте осуществления, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0133] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0134] Необязательно, в другом варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0135] Необязательно, в другом варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0136] Необязательно, в другом варианте осуществления, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0137] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0138] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0139] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.
[0140] Дополнительно, второй блок 502 определения специально выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
[0141] Необязательно, в одном варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения опорного SSNR звукового сигнала и определения расширенного SSNR согласно опорному SSNR звукового сигнала.
[0142] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Когда осуществляется вычисление опорного SSNR, весовые коэффициенты подполосных SNR, которые имеют все подполосы и которые включены в SSNR, являются одними и теми же в SSNR.
[0143] Необязательно, в другом варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000022
Формула 1.7
в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,05, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0144] Необязательно, в другом варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000023
Формула 1.8
в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 15, f(lsnr) может быть равна 1,05, и y(lsnr) может быть равна 1; и когда lsnr меньше 15, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0145] Третий блок 503 определения специально выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения, согласно результату сравнения, того, является ли звуковой сигнал активным сигналом. В частности, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом, или если расширенное SSNR является меньше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
[0146] Необязательно, в другом варианте осуществления, заданный алгоритм может также использоваться для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD, и уменьшенная пороговая величина принятия решения относительно VAD используется для определения того, является ли звуковой сигнал активным сигналом. В данном случае, устройство 500 может дополнительно включать в себя четвертый блок 504 определения, причем четвертый блок 504 определения выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, третий блок 503 определения специально выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0147] На Фиг.6 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.6, может выполнять все этапы, изображенные на Фиг.3. Как показано на Фиг.6, устройство 600 включает в себя первый блок 601 определения, второй блок 602 определения и третий блок 603 определения.
[0148] Первый блок 601 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0149] Второй блок 602 определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.
[0150] Третий блок 603 определения выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0151] Устройство 600, изображенное на Фиг.6, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0152] Дополнительно, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0153] Необязательно, в одном варианте осуществления, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0154] Необязательно, в другом варианте осуществления, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0155] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0156] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.
[0157] На Фиг.7 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.7, может выполнять все этапы, изображенные на Фиг.1 или Фиг.2. Как показано на Фиг.7, устройство 700 включает в себя процессор 701 и запоминающее устройство 702. Процессор 701 может быть универсальным процессором, цифровым сигнальным процессором (DSP), специализированной интегральной схемой (ASIC), программируемой вентильной матрицей (FPGA) или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором или что-либо им подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как запоминающее устройство с произвольным доступом (RAM), флэш-память, постоянное запоминающее устройство (Read-Only Memory, ROM), программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 702. Процессор 701 считывает команду из запоминающего устройства 702 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.
[0158] Процессор 701 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0159] Процессор 701 выполнен с возможностью определения расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.
[0160] Процессор 701 выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0161] Устройство 700, изображенное на Фиг.7, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0162] Необязательно, в одном варианте осуществления, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0163] Необязательно, в одном варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0164] Необязательно, в другом варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0165] Необязательно, в другом варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0166] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0167] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0168] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0169] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.
[0170] Дополнительно, процессор 701 специально выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
[0171] Необязательно, в одном варианте осуществления, процессор 701 специально выполнен с возможностью определения опорного SSNR звукового сигнала и определения расширенного SSNR согласно опорному SSNR звукового сигнала.
[0172] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Когда осуществляется вычисление опорного SSNR, весовые коэффициенты подполосных SNR, которые имеют все подполосы и которые включены в SSNR, являются одними и теми же в SSNR.
[0173] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000024
Формула 1.7
в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,07, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0174] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000025
Формула 1.8
в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 17, f(lsnr) может быть равна 1.07, и y(lsnr) может быть равна 1; и когда lsnr меньше 17, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.
[0175] Процессор 701 специально выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения, согласно результату сравнения, того, является ли звуковой сигнал активным сигналом. В частности, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом, или если расширенное SSNR является меньше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
[0176] Необязательно, в другом варианте осуществления, заданный алгоритм может также использоваться для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD, и уменьшенная пороговая величина принятия решения относительно VAD используется для определения того, является ли звуковой сигнал активным сигналом. В данном случае, процессор 701 может быть дополнительно выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, процессор 701 специально выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0177] На Фиг.8 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.8, может выполнять все этапы, изображенные на Фиг.3. Как показано на Фиг.8, устройство 800 включает в себя процессор 801 и запоминающее устройство 802. Процессор 801 может быть универсальным процессором, DSP, ASIC, FPGA или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором, или подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как RAM, флэш-память, ROM, программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 802. Процессор 801 считывает команду из запоминающего устройства 802 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.
[0178] Процессор 801 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0179] Процессор 801 выполнен с возможностью определения весового коэффициента подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного сегментного отношения (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.
[0180] Процессор 801 выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0181] Устройство 800, изображенное на Фиг.8, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0182] Дополнительно, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
[0183] Необязательно, в одном варианте осуществления, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные отношения (SNR) сигнал-шум больше первой заданной пороговой величины, больше первого количества.
[0184] Необязательно, в другом варианте осуществления, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0185] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0186] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.
[0187] На Фиг.9 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство 900, изображенное на Фиг.9, может выполнять все этапы, изображенные на Фиг.4. Как показано на Фиг.9, устройство 900 включает в себя первый блок 901 определения, второй блок 902 определения, третий блок 903 определения и четвертый блок 904 определения.
[0188] Первый блок 901 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0189] Второй блок 902 определения выполнен с возможностью получения опорного SSNR звукового сигнала.
[0190] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.
[0191] Третий блок 903 определения выполнен с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.
[0192] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.
[0193] Четвертый блок 904 определения выполнен с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0194] Необязательно, в одном варианте осуществления, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0195] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0196] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0197] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0198] Необязательно, в одном варианте осуществления, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0199] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0200] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0201] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.
[0202] Устройство 900, изображенное на Фиг.9, может определить характерную особенность входного звукового сигнала, уменьшить опорную пороговую величину принятия решения относительно VAD согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0203] На Фиг.10 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство 1000, изображенное на Фиг.10, может выполнять все этапы, изображенные на Фиг.4. Как показано на Фиг.10, устройство 1000 включает в себя процессор 1001 и запоминающее устройство 1002. Процессор 1001 может быть универсальным процессором, DSP, ASIC, FPGA или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором или что-либо им подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как RAM, флэш-память, ROM, программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 1002. Процессор 1001 считывает команду из запоминающего устройства 1002 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.
[0204] Процессор 1001 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.
[0205] Процессор 1001 выполнен с возможностью получения опорного SSNR звукового сигнала.
[0206] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.
[0207] Процессор 1001 выполнен с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.
[0208] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.
[0209] Процессор 1001 выполнен с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.
[0210] Необязательно, в одном варианте осуществления, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
[0211] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
[0212] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.
[0213] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
[0214] Необязательно, в одном варианте осуществления, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.
[0215] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.
[0216] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.
[0217] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.
[0218] Устройство 1000, изображенное на Фиг.10, может определить характерную особенность входного звукового сигнала, уменьшить опорную пороговую величину принятия решения относительно VAD согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.
[0219] Среднему специалисту в уровне техники может быть известно, что, совместно с примерами, описанными в вариантах осуществления, раскрытых в данной спецификации, блоки и этапы алгоритмов могут быть реализованы электронным аппаратным обеспечением или сочетанием компьютерного программного обеспечения и электронного аппаратного обеспечения. Выполнение упомянутых функций аппаратным обеспечением или программным обеспечением зависит от конкретных вариантов применения и условий конструктивных ограничений технических решений. Специалист в данной области техники может использовать различные способы для реализации описанных функций для каждого конкретного варианта применения, однако не следует считать, что такой вариант реализации выходит за пределы объема настоящего изобретения.
[0220] Специалисту в данной области техники может быть ясно понято, что, с целью удобного и краткого описания, для подробного процесса функционирования вышеупомянутой системы, устройства и блока, может быть сделана ссылка на соответствующий процесс в вышеупомянутых вариантах осуществлениях способов, и подробности в данном случае не описываются повторно.
[0221] В этих нескольких вариантах осуществления, предложенных в настоящей заявке, следует понимать, что раскрытая система, устройство и способ могут быть реализованы по-другому. Например, описанный вариант осуществления устройства является всего лишь примерным. Например, разделение блока является всего лишь логическим функциональным делением и может быть другим делением в фактическом варианте реализации. Например, множество блоков или компонентов может быть объединено или интегрировано в другую систему, или некоторые признаки могут быть проигнорированы или не выполнены. Кроме того, показываемые или обсуждаемые взаимные связи или прямые связи или соединения связи могут быть реализованы посредством использования некоторых интерфейсов. Косвенные связи или соединения связи между устройствами или блоками могут быть реализованы в электронной, механической или другой формах.
[0222] Блоки, описанные в качестве отдельных частей, могут быть или могут не быть физически отдельны, а части, показанные в качестве блоков, могут быть или могут не быть физическими блоками, могут быть расположены в одном положении, или могут быть распределены по множеству блоков сети. Некоторые или все блоки могут быть выбраны согласно фактическим потребностям для достижения целей решений вариантов осуществления.
[0223] Кроме того, функциональные блоки в вариантах осуществления настоящего изобретения могут быть объединены в один блок обработки, или каждый из блоков может существовать физически по отдельности, или два или более блоков объединяются в один блок.
[0224] Когда функции реализуются в виде функционального блока программного обеспечения и продаются или используются в качестве независимого продукта, то такие функции могут быть сохранены на считываемом компьютером запоминающем носителе. На основе такого понимания технические решения настоящего изобретения по существу или часть, вносящая вклад в предшествующий уровень техники, или часть технических решений могут быть реализованы в форме программного продукта. Программный продукт хранится на запоминающем носителе и включает в себя несколько команд для предписания вычислительному устройству (которое может быть персональным компьютером, сервером или сетевым устройством) или процессору, выполнять все или часть этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый запоминающий носитель включает в себя: любой носитель, который может хранить программный код, такой как карта флэш-памяти с интерфейсом USB, сменный жесткий диск, ROM, RAM, магнитный диск или оптический диск.
[0225] Вышеизложенные описания являются всего лишь частными вариантами осуществления настоящего изобретения, но не предназначены ограничивать объем защиты настоящего изобретения. Любое изменение или замена, легко придуманные специалистом в данной области техники внутри технического объема, раскрытого в настоящем изобретении, должны охватываться объема защиты настоящего изобретения. Поэтому, объем защиты настоящего изобретения подчинен объему защиты формулы изобретения.

Claims (50)

1. Способ обнаружения звукового сигнала, содержащий этапы, на которых:
определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала;
определяют расширенное сегментное отношение (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и
сравнивают расширенное SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
2. Способ по п.1, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
3. Способ по п.2, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
4. Способ по п.2, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
5. Способ по п.1, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если определено, что звуковой сигнал является безречевым сигналом.
6. Способ по п.3, в котором этап определения расширенного SSNR звукового сигнала содержит этапы, на которых:
определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и
определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
7. Способ по любому из пп.1-5, в котором этап определения расширенного SSNR звукового сигнала содержит этапы, на которых:
определяют опорное SSNR звукового сигнала; и
определяют расширенное SSNR согласно опорному SSNR звукового сигнала.
8. Способ по п.7, в котором этап определения расширенного SSNR согласно опорному SSNR звукового сигнала содержит этап, на котором:
определяют расширенное SSNR посредством использования следующей формулы:
Figure 00000026
, в которой
SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.
9. Способ обнаружения звукового сигнала, содержащий этапы, на которых:
определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала;
определяют весовой коэффициент подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы;
определяют расширенное сегментное отношение (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и
сравнивают расширенное SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
10. Способ по п.9, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
11. Способ по п.10, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:
определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
12. Устройство для обнаружения звукового сигнала, содержащее:
первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала;
второй блок определения, выполненный с возможностью определения расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и
третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
13. Устройство по п.12, в котором первый блок определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.
14. Устройство по п.13, в котором первый блок определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
15. Устройство по п.13, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.
16. Устройство по п.12, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если определено, что звуковой сигнал является безречевым сигналом.
17. Устройство по п.14, в котором второй блок определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.
18. Устройство по любому из пп.12-16, в котором второй блок определения выполнен с возможностью определения опорного SSNR звукового сигнала; и определения расширенного SSNR согласно опорному SSNR звукового сигнала.
19. Устройство по п.18, в котором второй блок определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:
Figure 00000026
, в которой
SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.
20. Устройство обнаружения звукового сигнала, содержащее:
первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала;
второй блок определения, выполненный с возможностью определения весового коэффициента подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, при этом весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного сегментного отношения (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и
третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.
21. Устройство по п.20, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.
22. Устройство по п.21, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.
RU2016139717A 2014-03-12 2014-12-01 Способ обнаружения звукового сигнала и устройство RU2666337C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410090386.XA CN104916292B (zh) 2014-03-12 2014-03-12 检测音频信号的方法和装置
CN201410090386.X 2014-03-12
PCT/CN2014/092694 WO2015135344A1 (zh) 2014-03-12 2014-12-01 检测音频信号的方法和装置

Publications (2)

Publication Number Publication Date
RU2016139717A RU2016139717A (ru) 2018-04-12
RU2666337C2 true RU2666337C2 (ru) 2018-09-06

Family

ID=54070889

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016139717A RU2666337C2 (ru) 2014-03-12 2014-12-01 Способ обнаружения звукового сигнала и устройство

Country Status (14)

Country Link
US (3) US10304478B2 (ru)
EP (2) EP3118852B1 (ru)
JP (2) JP6493889B2 (ru)
KR (2) KR102005009B1 (ru)
CN (3) CN104916292B (ru)
AU (1) AU2014386442B9 (ru)
CA (1) CA2940487C (ru)
ES (2) ES2926360T3 (ru)
MX (1) MX355828B (ru)
MY (1) MY193521A (ru)
PT (2) PT3118852T (ru)
RU (1) RU2666337C2 (ru)
SG (1) SG11201607052SA (ru)
WO (1) WO2015135344A1 (ru)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
CA2981775C (en) * 2016-04-29 2020-08-11 Huawei Technologies Co., Ltd. Voice input exception determining method, apparatus, terminal, and storage medium
CN107040359B (zh) * 2017-05-08 2021-01-19 海能达通信股份有限公司 一种语音呼叫过程中携带随路信令的方法、装置及设备
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107393553B (zh) * 2017-07-14 2020-12-22 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
RU2291499C2 (ru) * 2001-05-17 2007-01-10 Квэлкомм Инкорпорейтед Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления
RU2329550C2 (ru) * 2003-12-29 2008-07-20 Нокиа Корпорейшн Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法与装置、编码器
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
RU2450368C2 (ru) * 2007-09-28 2012-05-10 Квэлкомм Инкорпорейтед Средство обнаружения голосовой активности с использованием нескольких микрофонов
CN102959625A (zh) * 2010-12-24 2013-03-06 华为技术有限公司 自适应地检测输入音频信号中的话音活动的方法和设备

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182498A (ja) * 1983-04-01 1984-10-17 日本電気株式会社 音声検出回路
JPS63259596A (ja) 1987-04-16 1988-10-26 株式会社日立製作所 音声区間検出方式
UA41913C2 (ru) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Способ шумоглушения в системах связи
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
JP3574123B2 (ja) * 2001-03-28 2004-10-06 三菱電機株式会社 雑音抑圧装置
US7203643B2 (en) 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP4281349B2 (ja) 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7162420B2 (en) * 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
EP1982324B1 (en) 2006-02-10 2014-09-24 Telefonaktiebolaget LM Ericsson (publ) A voice detector and a method for suppressing sub-bands in a voice detector
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
KR101335417B1 (ko) 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010091339A1 (en) 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
JP5337530B2 (ja) * 2009-02-25 2013-11-06 京セラ株式会社 無線基地局および無線通信方法
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102804261B (zh) * 2009-10-19 2015-02-18 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
EP2491549A4 (en) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
EP3252771B1 (en) * 2010-12-24 2019-05-01 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
US20140316775A1 (en) 2012-02-10 2014-10-23 Mitsubishi Electric Corporation Noise suppression device
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
RU2291499C2 (ru) * 2001-05-17 2007-01-10 Квэлкомм Инкорпорейтед Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления
RU2329550C2 (ru) * 2003-12-29 2008-07-20 Нокиа Корпорейшн Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
RU2450368C2 (ru) * 2007-09-28 2012-05-10 Квэлкомм Инкорпорейтед Средство обнаружения голосовой активности с использованием нескольких микрофонов
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法与装置、编码器
CN102959625A (zh) * 2010-12-24 2013-03-06 华为技术有限公司 自适应地检测输入音频信号中的话音活动的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CN 102959625 A, 06/03/2013. *

Also Published As

Publication number Publication date
EP3118852A1 (en) 2017-01-18
MX2016011750A (es) 2016-12-12
US20190279657A1 (en) 2019-09-12
US10304478B2 (en) 2019-05-28
CA2940487A1 (en) 2015-09-17
AU2014386442B2 (en) 2017-11-02
CN107293287B (zh) 2021-10-26
MY193521A (en) 2022-10-17
SG11201607052SA (en) 2016-10-28
PT3118852T (pt) 2020-03-06
CN104916292A (zh) 2015-09-16
ES2787894T3 (es) 2020-10-19
ES2787894T9 (es) 2021-12-28
JP6493889B2 (ja) 2019-04-03
US11417353B2 (en) 2022-08-16
CN107293287A (zh) 2017-10-24
PT3660845T (pt) 2022-08-01
CA2940487C (en) 2020-10-27
AU2014386442A1 (en) 2016-09-08
KR102005009B1 (ko) 2019-07-29
WO2015135344A1 (zh) 2015-09-17
JP6793706B2 (ja) 2020-12-02
KR20180088503A (ko) 2018-08-03
CN107086043B (zh) 2020-09-08
JP2019053321A (ja) 2019-04-04
KR20160120764A (ko) 2016-10-18
RU2016139717A (ru) 2018-04-12
CN104916292B (zh) 2017-05-24
US20160379670A1 (en) 2016-12-29
MX355828B (es) 2018-05-02
KR101884220B1 (ko) 2018-08-01
US10818313B2 (en) 2020-10-27
ES2926360T3 (es) 2022-10-25
US20200312353A1 (en) 2020-10-01
EP3660845A1 (en) 2020-06-03
EP3118852B1 (en) 2020-02-12
EP3118852A4 (en) 2017-03-29
AU2014386442B9 (en) 2017-11-23
EP3660845B1 (en) 2022-06-08
JP2017511901A (ja) 2017-04-27
CN107086043A (zh) 2017-08-22

Similar Documents

Publication Publication Date Title
RU2666337C2 (ru) Способ обнаружения звукового сигнала и устройство
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
RU2680351C2 (ru) Способ и устройство обнаружения голосовой активности
JP2008534989A (ja) 音声アクティビティ検出装置および方法
KR20110044990A (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
WO2018161429A1 (zh) 一种噪声检测方法及终端设备
TW202322106A (zh) 抑制麥克風及電子裝置的風切聲的方法
CN103745729A (zh) 一种音频去噪方法和系统
CN106847299B (zh) 延时的估计方法及装置
JP2014508973A (ja) オーディオ信号において卓越周波数を減衰させるための方法および装置
Oukherfellah et al. FPGA implementation of voice activity detector for efficient speech enhancement
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN112530450A (zh) 频域中的样本精度延迟识别
US9570095B1 (en) Systems and methods for instantaneous noise estimation
JP2015119404A (ja) マルチパス判定装置
RU2485608C2 (ru) Способ и устройство для способствования определению ограничивающих частот сигнала
Li et al. Speech Endpoint Detection in Noisy Environment Based on the Ensemble Empirical Mode Decomposition