RU2666337C2

RU2666337C2 - Способ обнаружения звукового сигнала и устройство

Info

Publication number: RU2666337C2
Application number: RU2016139717A
Authority: RU
Inventors: Чжэ ВАН
Original assignee: Хуавэй Текнолоджиз Ко., Лтд.
Priority date: 2014-03-12
Filing date: 2014-12-01
Publication date: 2018-09-06
Also published as: EP3118852A1; MX2016011750A; US20190279657A1; US10304478B2; CA2940487A1; AU2014386442B2; CN107293287B; MY193521A; SG11201607052SA; PT3118852T; CN104916292A; ES2787894T3; ES2787894T9; JP6493889B2; US11417353B2; CN107293287A; PT3660845T; CA2940487C; AU2014386442A1; KR102005009B1

Abstract

Изобретение относится к области техники обработки сигналов и предназначено для обнаружения звукового сигнала. Технический результат – обеспечение возможности точного различия активной речи и неактивной речи. Данный способ включает в себя: определение входного звукового сигнала в качестве подлежащего определению звукового сигнала; определение расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, при этом расширенное SSNR больше опорного SSNR; и сравнение расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом. 4 н. и 18 з.п. ф-лы, 10 ил.

Description

Область техники, к которой относится изобретение

[0001] Варианты осуществления настоящего изобретения относятся к области техники обработки сигналов и, в частности, к способу обнаружения звукового сигнала и устройству.

Уровень техники

[0002] Обнаружение (VAD) речевой активности является ключевой технологией, широко используемой в таких областях техники, как передача речи и человеко-машинное взаимодействие. VAD может также упоминаться в качестве обнаружения (SAD) звуковой активности. VAD используется для обнаружения того, присутствует ли активный сигнал во входном звуковом сигнале, причем активный сигнал схож с неактивным сигналом (например, окружающий фоновый шум и приглушенная речь). Обычные активные сигналы включают в себя речь, музыку, и т.п. Принцип действия VAD заключается в том, что один или более характерных параметров, извлекаются из входного звукового сигнала, одно или более характерных значений определяются согласно упомянутому одному или более характерным параметрам, и затем упомянутое одно или более характерных значений сравнивается с одной или более пороговыми величинами.

[0003] В предшествующем уровне техники способ обнаружения активного сигнала на основе сегментного отношения (SSNR) сигнал-шум включает в себя: разделение входного звукового сигнала на множество подполосных сигналов в некоторой полосе частот, вычисление энергии звукового сигнала в каждой подполосе и сравнение энергии звукового сигнала в каждой подполосе с оцененной энергией сигнала фонового шума в каждой подполосе для получения отношения (SNR) сигнал-шум звукового сигнала в каждой подполосе; и затем определение SSNR согласно подполосному SNR каждой подполосы и сравнение SSNR с заданной пороговой величиной принятия решения относительно VAD, причем если SSNR превышает пороговую величину принятия решения относительно VAD, то звуковой сигнал является активным сигналом, или если SSNR не превышает пороговую величину принятия решения относительно VAD, то звуковой сигнал является неактивным сигналом.

[0004] Обычный способ вычисления SSNR заключается в сложении всех подполосных SNR звукового сигнала, и полученным результатом является SSNR. Например, SSNR может быть определен посредством использования формулы 1.1:

Формула 1.1

где k указывает k-ую подполосу, snr(k) указывает подполосное SNR k-ой подполосы и N указывает полное количество подполос, на которые разделен звуковой сигнал.

[0005] При использовании вышеупомянутого способа вычисления SSNR для обнаружения активной речи может происходить необнаружение активной речи.

Сущность изобретения

[0006] В вариантах осуществления настоящего изобретения предложен способ обнаружения звукового сигнала и устройство, которые могут точно различать активную речь и неактивную речь.

[0007] Согласно первому аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; определяют расширенное сегментное отношение (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и сравнивают расширенное SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом.

[0008] Со ссылкой на первый аспект, в первом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

[0009] Со ссылкой на первый возможный вариант реализации первого аспекта, во втором возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0010] Со ссылкой на первый возможный вариант реализации первого аспекта, в третьем возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0011] Со ссылкой на первый возможный вариант реализации первого аспекта, в четвертом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0012] Со ссылкой на первый аспект, в пятом возможном варианте реализации первого аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.

[0013] Со ссылкой на второй возможный вариант реализации или третий возможный вариант реализации первого аспекта, в шестом возможном варианте реализации первого аспекта, этап определения расширенного SSNR звукового сигнала включает в себя этап, на котором: определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

[0014] Со ссылкой на первый аспект или любой возможный вариант реализации первого возможного варианта реализации первого аспекта по пятый возможный вариант реализации первого аспекта, в седьмом возможном варианте реализации первого аспекта, этап определения расширенного SSNR звукового сигнала включает в себя этап, на котором: определяют опорное SSNR звукового сигнала; и определяют расширенное SSNR согласно опорному SSNR звукового сигнала.

[0015] Со ссылкой на седьмой возможный вариант реализации первого аспекта, в восьмом возможном варианте реализации первого аспекта, этап определения расширенного SSNR согласно опорному SSNR звукового сигнала включает в себя этап, на котором: определяют расширенное SSNR посредством использования следующей формулы:

, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.

[0016] Со ссылкой на седьмой возможный вариант реализации первого аспекта, в девятом возможном варианте реализации первого аспекта, этап определения расширенного SSNR согласно опорному SSNR звукового сигнала включает в себя этап, на котором: определяют расширенное SSNR посредством использования следующей формулы:

, в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения.

[0017] Со ссылкой на первый аспект или любой из предшествующих возможных вариантов реализации первого аспекта, в десятом возможном варианте реализации первого аспекта, перед этапом сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD, способ дополнительно включает в себя этап, на котором: используют заданный алгоритм для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и этап сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом, включает в себя этап, на котором: сравнивают расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0018] Согласно второму аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и сравнивают расширенное SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0019] Со ссылкой на второй аспект, в первом возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0020] Со ссылкой на первый возможный вариант реализации второго аспекта, во втором возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0021] Со ссылкой на первый возможный вариант реализации второго аспекта, в третьем возможном варианте реализации второго аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0022] Согласно третьему аспекту в одном варианте осуществления настоящего изобретения предложен способ обнаружения звукового сигнала, включающий в себя этапы, на которых: определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала; получают опорное SSNR звукового сигнала; используют заданный алгоритм для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и сравнивают опорное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0023] Со ссылкой на третий аспект, в первом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0024] Со ссылкой на первый возможный вариант реализации третьего аспекта, во втором возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0025] Со ссылкой на первый возможный вариант реализации третьего аспекта, в третьем возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0026] Со ссылкой на первый возможный вариант реализации третьего аспекта, в четвертом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0027] Со ссылкой на третий аспект, в пятом возможном варианте реализации третьего аспекта, этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя этап, на котором: определяют звуковой сигнал в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.

[0028] Согласно четвертому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью определения расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR; и третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0029] Со ссылкой на четвертый аспект, в первом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

[0030] Со ссылкой на первый возможный вариант реализации четвертого аспекта, во втором возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0031] Со ссылкой на первый возможный вариант реализации четвертого аспекта, в третьем возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0032] Со ссылкой на первый возможный вариант реализации четвертого аспекта, в четвертом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0033] Со ссылкой на четвертый аспект, в пятом возможном варианте реализации четвертого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.

[0034] Со ссылкой на второй возможный вариант реализации четвертого аспекта или третий возможный вариант реализации четвертого аспекта, в шестом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

[0035] Со ссылкой на четвертый аспект или любой возможный вариант реализации первого возможного варианта реализации четвертого аспекта по пятый возможный вариант реализации четвертого аспекта, в седьмом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения опорного SSNR звукового сигнала; и определения расширенного SSNR согласно опорному SSNR звукового сигнала.

[0036] Со ссылкой на седьмой возможный вариант реализации четвертого аспекта, в восьмом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

[0037] Со ссылкой на седьмой возможный вариант реализации четвертого аспекта, в девятом возможном варианте реализации четвертого аспекта, второй блок определения выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

[0038] Со ссылкой на четвертый аспект или любой из предшествующих возможных вариантов реализации четвертого аспекта, в десятом возможном варианте реализации четвертого аспекта, устройство дополнительно включает в себя четвертый блок определения, при этом четвертый блок определения выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и третий блок определения выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0039] Согласно пятому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0040] Со ссылкой на пятый аспект, в первом возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

[0041] Со ссылкой на первый возможный вариант реализации пятого аспекта, во втором возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0042] Со ссылкой на первый возможный вариант реализации пятого аспекта, в третьем возможном варианте реализации пятого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0043] Согласно шестому аспекту в одном варианте осуществления настоящего изобретения предложено устройство, включающее в себя: первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала; второй блок определения, выполненный с возможностью получения опорного SSNR звукового сигнала; третий блок определения, выполненный с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD; и четвертый блок определения, выполненный с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0044] Со ссылкой на шестой аспект, в первом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0045] Со ссылкой на первый возможный вариант реализации шестого аспекта, во втором возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0046] Со ссылкой на первый возможный вариант реализации шестого аспекта, в третьем возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0047] Со ссылкой на первый возможный вариант реализации шестого аспекта, в четвертом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0048] Со ссылкой на шестой аспект, в пятом возможном варианте реализации шестого аспекта, первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом.

[0049] Согласно способу, предложенному в упомянутых вариантах осуществления настоящего изобретения, может быть определена характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружений активного сигнала могла быть уменьшена.

Краткое описание чертежей

[0050] Для описания технических решений в вариантах осуществления настоящего изобретения более ясно далее кратко описаны сопроводительные чертежи, необходимые для описания вариантов осуществления настоящего изобретения. Ясно, что на сопроводительных чертежах в последующем описании всего лишь показаны некоторые варианты осуществления настоящего изобретения, и средний специалист в уровне техники также может создать другие чертежи из этих сопроводительных чертежей без приложения творческих усилий.

[0051] На Фиг.1 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;

[0052] На Фиг.2 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;

[0053] На Фиг.3 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;

[0054] На Фиг.4 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения;

[0055] На Фиг.5 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения;

[0056] На Фиг.6 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения;

[0057] На Фиг.7 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения;

[0058] На Фиг.8 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения;

[0059] На Фиг.9 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения; и

[0060] На Фиг.10 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения.

Осуществление изобретения

[0061] Далее ясно описаны технические решения в вариантах осуществления настоящего изобретения со ссылкой на сопроводительные чертежи в вариантах осуществления настоящего изобретения. Ясно, что описанные варианты осуществления являются всего лишь некоторыми, а не всеми, вариантами осуществления настоящего изобретения. Все другие варианты осуществления, полученные средним специалистом в уровне техники на основе приведенных вариантов осуществления настоящего изобретения без приложения творческих усилий, покрываются объемом защиты настоящего изобретения.

[0062] На Фиг.1 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.

[0063] 101. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0064] 102. Определение расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.

[0065] 103. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0066] В данном варианте осуществления настоящего изобретения, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, при этом может использоваться опорная пороговая величина принятия решения относительно VAD, или может использоваться уменьшенная пороговая величина принятия решения относительно VAD, полученная после того, как опорная пороговая величина принятия решения относительно VAD уменьшена посредством использования заданного алгоритма. Опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм.

[0067] При использовании обычного способа вычисления SSNR для вычисления SSNR-отношений некоторых звуковых сигналов SSNR-отношения этих звуковых сигналов могут быть ниже заданной пороговой величины принятия решения относительно VAD. Однако, фактически, эти звуковые сигналы являются активными звуковыми сигналами. Это обусловлено характерными особенностями этих звуковых сигналов. Например, в случае, при котором окружающее SNR является относительно низким, подполосное SNR высокочастотной части значительно уменьшено. Кроме того, поскольку обычно используется психоакустическая теория для выполнения разделения на подполосы, то подполосное SNR высокочастотной части вносит относительно малый вклад в SSNR. В данном случае, для некоторых сигналов, таких как безречевой сигнал, энергия которого, главным образом, сконцентрирована в относительно высокочастотной части, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD, что обуславливает необнаружение активного сигнала. В другом примере, для некоторых звуковых сигналов, распределение энергии этих звуковых сигналов является относительно плоским по спектру, но полная энергия этих звуковых сигналов является относительно низкой. Поэтому, в случае, при котором окружающее SNR является относительно низким, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD. В способе, изображенном на Фиг.1, используется подходящее увеличение SSNR, так что SSNR может быть больше пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть эффективно уменьшена.

[0068] На Фиг.2 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.

[0069] 201. Определение подполосного SNR входного звукового сигнала.

[0070] Спектр входного звукового сигнала разделяется на N подполос, где N является положительным целым числом, больше 1. В частности, для разделения спектра звукового сигнала может использоваться психоакустическая теория. В случае, при котором для разделения спектра звукового сигнала используется психоакустическая теория, ширина подполосы ближе к низкой частоте является более узкой, а ширина подполосы ближе к высокой частоте является более широкой. Конечно, спектр звукового сигнала может также быть разделен и по-другому, например, посредством равномерного разделения спектра звукового сигнала на N подполос. Осуществляется вычисление подполосного SNR каждой подполосы входного звукового сигнала, при этом подполосное SNR является отношением энергии подполосы к энергии фонового шума в данной подполосе. Энергия фонового шума в подполосе в целом является оцененным значением, полученным посредством оценки оценщиком фонового шума. Вариант использования оценщика фонового шума для оценки энергии фонового шума, соответствующей каждой подполосе, осуществляется согласно хорошо известной технологии в данной области техники. Поэтому, в данном документе не нужно пописывать какие-либо подробности. Специалист в данной области техники может быть понятно, что подполосное SNR может быть прямым отношением энергий или может быть другой формой выражения прямого отношения энергий, такой как логарифмическое подполосное SNR. Кроме того, специалист в данной области техники дополнительно может быть понятно, что подполосное SNR может также быть подполосным SNR, полученным после выполнения над прямым подполосном SNR линейной или нелинейной обработки, или может быть другим преобразованием подполосного SNR. Прямое отношение энергий подполосного SNR изображено в следующей формуле:

Формула 1.2

в которой snr(k) указывает подполосное SNR k-ой подполосы, а E(k) и En(k) соответственно указывают энергию k-ой подполосы и энергию фонового шума в k-ой подполосе. Логарифмическое подполосное SNR может быть указано следующим образом:

, где

указывает логарифмическое подполосное SNR k-ой подполосы, и snr(k) указывает подполосное SNR, которым обладает k-ая подполоса и которое получено через вычисление посредством использования формулы 1.2. Специалисту в данной области техники может быть дополнительно понятно, что подполосная энергия, используемая для вычисления подполосного SNR, может быть энергией входного звукового сигнала в некоторой подполосе, или может быть энергией, полученной после вычитания энергии фонового шума в некоторой подполосе из энергии входного звукового сигнала в данной подполосе. Вычисление SNR выполняется должным образом без отступления от сущности SNR.

[0071] 202. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0072] Необязательно, в одном варианте осуществления, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала может включать в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR, которым обладает звуковой сигнал и которое определено на этапе 201.

[0073] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0074] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества. В данном варианте осуществления настоящего изобретения высокочастотная граница и низкочастотная граница одного кадра звукового сигнала являются относительными, то есть часть, имеющая относительно высокую частоту, является высокочастотной границей, а часть, имеющая относительно низкую частоту, является низкочастотной границей.

[0075] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0076] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0077] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0078] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве кадров шумового сигнала, собирается статистика о количестве подполос, подполосные SNR которых меньше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих кадров образцов шума и чьи подполосные SNR меньше третьей заданной пороговой величины, было больше четвертого количества

[0079] Необязательно, в другом варианте осуществления, то, является ли входной звуковой сигнал подлежащим определению звуковым сигналом, может быть определено посредством определения того, является ли входной звуковой сигнал безречевым сигналом. В данном случае, не нужно определять подполосное SNR звукового сигнала, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. Другими словами, этап 201 не нужно выполнять, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. В частности, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения частоты (ZCR) переходов через нуль во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0080] 203. Определение расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.

[0081] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Из формулы 1.1 можно видеть, что при осуществлении вычисления опорного SSNR весовая обработка не выполняется над подполосным SNR какой-либо подполосы, то есть при осуществлении вычисления опорного SSNR весовые коэффициенты подполосных SNR всех подполос равны.

[0082] Необязательно, в одном варианте осуществления, в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества, или в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества, определение расширенного SSNR звукового сигнала включает в себя: определение весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определение расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

[0083] Например, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, и оба отношения сигнал-шум подполосы 18 и подполосы 19 больше первого заданного значения T1, могут быть добавлены четыре подполосы, то есть с подполосы 20 по подполосу 23. В частности, подполоса 18 и подполоса 19, чьи отношения сигнал-шум больше T1, могут быть соответственно разделены на подполосу 18a, подполосу 18b и подполосу 18c; и подполосу 19a, подполосу 19b и подполосу 19c. В данном случае, подполоса 18 может быть рассмотрена в качестве родительской подполосы для подполосы 18a, подполосы 18b и подполосы 18c, и подполоса 19 может быть рассмотрена в качестве родительской подполосы для подполосы 19a, подполосы 19b и подполосы 19c. Значения отношений сигнал-шум подполосы 18a, подполосы 18b и подполосы 18c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы, а значения отношений сигнал-шум подполосы 19a, подполосы 19b и подполосы 19c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы. По такому принципу, 20 подполос, которые первоначально получены через разделение, повторно разделяются на 24 подполосы. Поскольку VAD выполнен все еще согласно этим 20 подполосам в течение обнаружения активного сигнала, то эти 24 подполосы должны быть отображены обратно на эти 20 подполос для определения расширенного SSNR. В заключении, когда расширенное SSNR определяется посредством увеличения количества высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, вычисление может быть выполнено посредством использования следующей формулы:

Формула 1.3

в которой

указывает расширенное SSNR, а snr(k) указывает подполосное SNR k-ой подполосы.

[0084] Если SSNR, полученное через вычисление посредством использования формулы 1.1, является опорным SSNR, то опорное SSNR, полученное посредством вычисления, представляет собой

. Ясно, для звукового сигнала первого типа, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.3, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.

[0085] В другом примере, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, snr(18) и snr(19) оба больше первого заданного значения T1, и с snr(0) по snr(17) все меньше второй заданной пороговой величины T2, то расширенное SSNR может быть определено следующим образом:

Формула 1.4

в которой SSNR' указывает расширенное SSNR, snr(k) указывает подполосное SNR k-ой подполосы,

и

являются параметрами увеличения весового коэффициента, и значения

и

делают

больше по сравнению с

. Ясно, значение расширенного SSNR, полученного через вычисление посредством использования формулы 1.4, больше значения опорного SSNR, полученного через вычисление посредством использования формулы 1.1.

[0086] Необязательно, в другом варианте осуществления, определение расширенного SSNR звукового сигнала включает в себя: определение опорного SSNR звукового сигнала и определение расширенного SSNR согласно опорному SSNR звукового сигнала.

[0087] Необязательно, расширенное SSNR может быть определено посредством использования следующей формулы:

Формула 1.5

в которой SSNR указывает опорное SSNR звукового сигнала, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,05, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0088] Необязательно, расширенное SSNR может быть определено посредством использования следующей формулы:

Формула 1.6

в которой SSNR указывает исходное SSNR звукового сигнала, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 15, f(lsnr) может быть равна 1,05, и y(lsnr) может быть равна 1; и когда lsnr меньше 15, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0089] 204. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0090] В частности, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

[0091] Необязательно, в другом варианте осуществления, перед сравнением расширенного SSNR с пороговой величиной принятия решения относительно VAD, способ может дополнительно включать в себя: использование заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD в частности включает в себя: сравнение расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом. Опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.

[0092] Согласно способу, изображенному на Фиг.2, определяется характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD. По такому принципу, доля необнаружений активного сигнала может быть уменьшена.

[0093] На Фиг.3 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.

[0094] 301. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0095] 302. Определение весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы.

[0096] 303. Определение расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.

[0097] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Из формулы 1.1 можно видеть, что при осуществлении вычисления опорного SSNR весовая обработка не выполняется над подполосным SNR какой-либо подполосы, то есть при осуществлении вычисления опорного SSNR весовые коэффициенты подполосных SNR всех подполос равны.

[0098] Например, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, и оба отношения сигнал-шум подполосы 18 и подполосы 19 больше первого заданного значения T1, то могут быть добавлены четыре подполосы, то есть с подполосы 20 по подполосу 23. В частности, подполоса 18 и подполоса 19, чьи отношения сигнал-шум больше T1, могут быть соответственно разделены на подполосу 18a, подполосу 18b и подполосу 18c; и подполосу 19a, подполосу 19b и подполосу 19c. В данном случае, подполоса 18 может быть рассмотрена в качестве родительской подполосы для подполосы 18a, подполосы 18b и подполосы 18c, и подполоса 19 может быть рассмотрена в качестве родительской подполосы для подполосы 19a, подполосы 19b и подполосы 19c. Значения отношений сигнал-шум подполосы 18a, подполосы 18b и подполосы 18c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы, и значения отношений сигнал-шум подполосы 19a, подполосы 19b и подполосы 19c являются теми же самыми что и значение отношения сигнал-шум их родительской подполосы. По такому принципу, 20 подполос, которые первоначально получены через разделение, повторно разделяются на 24 подполосы. Поскольку VAD по-прежнему выполнен согласно этим 20 подполосам в течение обнаружения активного сигнала, то эти 24 подполосы должны быть отображены обратно на эти 20 подполос для определения расширенного SSNR. В заключении, когда расширенное SSNR определяется посредством увеличения количества высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, вычисление может быть выполнено посредством использования следующей формулы:

Формула 1.3

в которой SSNR' указывает расширенное SSNR, и snr(k) указывает подполосное SNR k-ой подполосы.

[0100] Если SSNR, полученное через вычисление посредством использования формулы 1.1, является опорным SSNR, то опорное SSNR, полученное посредством вычисления, представляет собой

[0101] В другом примере, если звуковой сигнал разделен на 20 подполос, то есть с подполосы 0 по подполосу 19, согласно психоакустической теории, snr(18) и snr(19) оба больше первого заданного значения T1, и с snr(0) по snr(17) все меньше второй заданной пороговой величины T2, то расширенное SSNR может быть определено посредством использования следующей формулы:

Формула 1.4

в которой SSNR' указывает расширенное SSNR, snr(k) указывает подполосное SNR k-ой подполосы, a ₁ и a ₂ являются параметрами увеличения весового коэффициента, и значения a ₁ и a ₂ делают

больше по сравнению с

[0102] 304. Сравнение расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0103] В частности, когда расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

[0104] Согласно способу, изображенному на Фиг.3, может быть определена характерная особенность звукового сигнала, расширенное SSNR определяется соответствующим образом согласно характерной особенности звукового сигнала, и расширенное SSNR сравнивается с пороговой величиной принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.

[0105] Дополнительно, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0106] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0107] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0108] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0109] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.

[0110] В вариантах осуществления с Фиг.1 по Фиг.3 то, является ли входной звуковой сигнал активным сигналом, определяется посредством использования расширенного SSNR. В способе, изображенном на Фиг.4, то, является ли входной звуковой сигнал активным сигналом, определяется посредством уменьшения пороговой величины принятия решения относительно VAD.

[0111] На Фиг.4 показана схематичная блок-схема последовательности операций способа обнаружения звукового сигнала согласно одному варианту осуществления настоящего изобретения.

[0112] 401. Определение входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0113] Необязательно, в одном варианте осуществления, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR, которым обладает звуковой сигнал и который определен на этапе 201.

[0114] Необязательно, в одном варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0115] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0116] Необязательно, в другом варианте осуществления, в случае, при котором звуковой сигнал определен в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0117] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0118] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0119] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве кадров шумового сигнала, собирается статистика о количестве подполос, подполосные SNR которых меньше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих кадров образцов шума и чьи подполосные SNR меньше третьей заданной пороговой величины, было больше четвертого количества

[0120] Необязательно, в другом варианте осуществления, то, является ли входной звуковой сигнал подлежащим определению звуковым сигналом, может быть определено посредством определения того, является ли входной звуковой сигнал безречевым сигналом. В данном случае, не нужно определять подполосное SNR звукового сигнала, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. Другими словами, этап 201 не нужно выполнять, когда происходит определение того, является ли звуковой сигнал подлежащим определению звуковым сигналом. В частности, определение входного звукового сигнала в качестве подлежащего определению звукового сигнала включает в себя: определение звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0121] 402. Получение опорного SSNR звукового сигнала.

[0122] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.

[0123] 403. Использование заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.

[0124] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.

[0125] 404. Сравнение опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0126] При использовании обычного способа вычисления SSNR для вычисления SSNR-отношений некоторых звуковых сигналов SSNR-отношения этих звуковых сигналов могут быть ниже заданной пороговой величины принятия решения относительно VAD. Однако, фактически, эти звуковые сигналы являются активными звуковыми сигналами. Это обусловлено характерными особенностями этих звуковых сигналов. Например, в случае, при котором окружающее SNR является относительно низким, подполосное SNR высокочастотной части значительно уменьшено. Кроме того, поскольку обычно используется психоакустическая теория для выполнения разделения на подполосы, то подполосное SNR высокочастотной части вносит относительно малый вклад в SSNR. В данном случае, для некоторых сигналов, таких как безречевой сигнал, энергия которого, главным образом, сконцентрирована в относительно высокочастотной части, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD, что обуславливает необнаружение активного сигнала. В другом примере, для некоторых звуковых сигналов, распределение энергии этих звуковых сигналов является относительно плоским по спектру, но полная энергия этих звуковых сигналов является относительно низкой. Поэтому, в случае, при котором окружающее SNR является относительно низким, SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, может быть ниже пороговой величины принятия решения относительно VAD. В способе, изображенном на Фиг.4, используется уменьшение пороговой величины принятия решения относительно VAD, так чтобы SSNR, полученное через вычисление посредством использования обычного способа вычисления SSNR, было больше пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть эффективно уменьшена.

[0127] На Фиг.5 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.5, может выполнять все этапы, изображенные на Фиг.1 или Фиг.2. Как показано на Фиг.5, устройство 500 включает в себя первый блок 501 определения, второй блок 502 определения и третий блок 503 определения.

[0128] Первый блок 501 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0129] Второй блок 502 определения выполнен с возможностью определения расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR.

[0130] Третий блок 503 определения выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом.

[0131] Устройство 500, изображенное на Фиг.5, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0132] Необязательно, в одном варианте осуществления, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0133] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0134] Необязательно, в другом варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0135] Необязательно, в другом варианте осуществления, в случае, при котором первый блок 501 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0136] Необязательно, в другом варианте осуществления, первый блок 501 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0137] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0138] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0139] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.

[0140] Дополнительно, второй блок 502 определения специально выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

[0141] Необязательно, в одном варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения опорного SSNR звукового сигнала и определения расширенного SSNR согласно опорному SSNR звукового сигнала.

[0142] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Когда осуществляется вычисление опорного SSNR, весовые коэффициенты подполосных SNR, которые имеют все подполосы и которые включены в SSNR, являются одними и теми же в SSNR.

[0143] Необязательно, в другом варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

Формула 1.7

в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,05, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0144] Необязательно, в другом варианте осуществления, второй блок 502 определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

Формула 1.8

в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 15, f(lsnr) может быть равна 1,05, и y(lsnr) может быть равна 1; и когда lsnr меньше 15, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0145] Третий блок 503 определения специально выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения, согласно результату сравнения, того, является ли звуковой сигнал активным сигналом. В частности, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом, или если расширенное SSNR является меньше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

[0146] Необязательно, в другом варианте осуществления, заданный алгоритм может также использоваться для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD, и уменьшенная пороговая величина принятия решения относительно VAD используется для определения того, является ли звуковой сигнал активным сигналом. В данном случае, устройство 500 может дополнительно включать в себя четвертый блок 504 определения, причем четвертый блок 504 определения выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, третий блок 503 определения специально выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0147] На Фиг.6 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.6, может выполнять все этапы, изображенные на Фиг.3. Как показано на Фиг.6, устройство 600 включает в себя первый блок 601 определения, второй блок 602 определения и третий блок 603 определения.

[0148] Первый блок 601 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0149] Второй блок 602 определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.

[0150] Третий блок 603 определения выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0151] Устройство 600, изображенное на Фиг.6, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0152] Дополнительно, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0153] Необязательно, в одном варианте осуществления, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0154] Необязательно, в другом варианте осуществления, первый блок 601 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0155] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0156] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.

[0157] На Фиг.7 показана структурная блок-схема устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.7, может выполнять все этапы, изображенные на Фиг.1 или Фиг.2. Как показано на Фиг.7, устройство 700 включает в себя процессор 701 и запоминающее устройство 702. Процессор 701 может быть универсальным процессором, цифровым сигнальным процессором (DSP), специализированной интегральной схемой (ASIC), программируемой вентильной матрицей (FPGA) или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором или что-либо им подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как запоминающее устройство с произвольным доступом (RAM), флэш-память, постоянное запоминающее устройство (Read-Only Memory, ROM), программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 702. Процессор 701 считывает команду из запоминающего устройства 702 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.

[0158] Процессор 701 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0159] Процессор 701 выполнен с возможностью определения расширенного SSNR звукового сигнала, причем расширенное SSNR больше опорного SSNR.

[0160] Процессор 701 выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0161] Устройство 700, изображенное на Фиг.7, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0162] Необязательно, в одном варианте осуществления, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0163] Необязательно, в одном варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0164] Необязательно, в другом варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0165] Необязательно, в другом варианте осуществления, в случае, при котором процессор 701 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0166] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR во временной области звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0167] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0168] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0169] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.

[0170] Дополнительно, процессор 701 специально выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного SSNR согласно SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

[0171] Необязательно, в одном варианте осуществления, процессор 701 специально выполнен с возможностью определения опорного SSNR звукового сигнала и определения расширенного SSNR согласно опорному SSNR звукового сигнала.

[0172] Опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1. Когда осуществляется вычисление опорного SSNR, весовые коэффициенты подполосных SNR, которые имеют все подполосы и которые включены в SSNR, являются одними и теми же в SSNR.

[0173] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

Формула 1.7

в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения. Например, значение x может быть 1,07, а значение y может быть 1. Специалисту в данной области техники может быть понятно, что значения x и y могут быть другими подходящими значениями, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0174] Необязательно, в другом варианте осуществления, процессор 701 специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

Формула 1.8

в которой SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, и f(x) и h(y) указывают функции расширения. Например, f(x) и h(y) могут быть функциями, относящимися к LSNR звукового сигнала, причем LSNR звукового сигнала является средним SNR или взвешенным SNR внутри относительно долгого периода времени. Например, когда lsnr больше 20, f(lsnr) может быть равна 1,1, и y(lsnr) может быть равна 2; когда lsnr меньше 20 и больше 17, f(lsnr) может быть равна 1.07, и y(lsnr) может быть равна 1; и когда lsnr меньше 17, f(lsnr) может быть равна 1, и y(lsnr) может быть равна 0. Специалисту в данной области техники может быть понятно, что f(x) и h(y) могут быть представлены в других подходящих формах, которые должным образом увеличивают расширенное SSNR по сравнению с опорным SSNR.

[0175] Процессор 701 специально выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения, согласно результату сравнения, того, является ли звуковой сигнал активным сигналом. В частности, если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом, или если расширенное SSNR является меньше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

[0176] Необязательно, в другом варианте осуществления, заданный алгоритм может также использоваться для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD, и уменьшенная пороговая величина принятия решения относительно VAD используется для определения того, является ли звуковой сигнал активным сигналом. В данном случае, процессор 701 может быть дополнительно выполнен с возможностью использования заданного алгоритма для уменьшения пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD. В данном случае, процессор 701 специально выполнен с возможностью сравнения расширенного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0177] На Фиг.8 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство, изображенное на Фиг.8, может выполнять все этапы, изображенные на Фиг.3. Как показано на Фиг.8, устройство 800 включает в себя процессор 801 и запоминающее устройство 802. Процессор 801 может быть универсальным процессором, DSP, ASIC, FPGA или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором, или подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как RAM, флэш-память, ROM, программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 802. Процессор 801 считывает команду из запоминающего устройства 802 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.

[0178] Процессор 801 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0179] Процессор 801 выполнен с возможностью определения весового коэффициента подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного сегментного отношения (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR.

[0180] Процессор 801 выполнен с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0181] Устройство 800, изображенное на Фиг.8, может определить характерную особенность входного звукового сигнала, определить расширенное SSNR соответствующим образом согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0182] Дополнительно, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

[0183] Необязательно, в одном варианте осуществления, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные отношения (SNR) сигнал-шум больше первой заданной пороговой величины, больше первого количества.

[0184] Необязательно, в другом варианте осуществления, процессор 801 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0185] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0186] Первое количество, второе количество и третье количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ получения второго количества подобен способу получения первого количества. Второе количество может быть тем же самым что и первое количество, либо второе количество может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве кадров безречевых речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых меньше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих кадров безречевых речевых образцов и чьи подполосные SNR меньше второй заданной пороговой величины, было больше третьего количества.

[0187] На Фиг.9 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство 900, изображенное на Фиг.9, может выполнять все этапы, изображенные на Фиг.4. Как показано на Фиг.9, устройство 900 включает в себя первый блок 901 определения, второй блок 902 определения, третий блок 903 определения и четвертый блок 904 определения.

[0188] Первый блок 901 определения выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0189] Второй блок 902 определения выполнен с возможностью получения опорного SSNR звукового сигнала.

[0190] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.

[0191] Третий блок 903 определения выполнен с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.

[0192] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.

[0193] Четвертый блок 904 определения выполнен с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0194] Необязательно, в одном варианте осуществления, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0195] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0196] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0197] Необязательно, в одном варианте осуществления, в случае, при котором первый блок 901 определения определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0198] Необязательно, в одном варианте осуществления, первый блок 901 определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0199] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0200] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0201] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.

[0202] Устройство 900, изображенное на Фиг.9, может определить характерную особенность входного звукового сигнала, уменьшить опорную пороговую величину принятия решения относительно VAD согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0203] На Фиг.10 показана структурная блок-схема другого устройства согласно одному варианту осуществления настоящего изобретения. Устройство 1000, изображенное на Фиг.10, может выполнять все этапы, изображенные на Фиг.4. Как показано на Фиг.10, устройство 1000 включает в себя процессор 1001 и запоминающее устройство 1002. Процессор 1001 может быть универсальным процессором, DSP, ASIC, FPGA или другим программируемым логическим компонентом, логическим элементом на дискретных компонентах или транзисторным логическим элементом, или отдельным компонентом аппаратного обеспечения, который может реализовать или выполнять способы, этапы и логические блок-схемы, раскрытые в вариантах осуществления настоящего изобретения. Универсальный процессор может быть микропроцессором, или процессор может быть любым обычным процессором или что-либо им подобным. Этапы способов, раскрытых в вариантах осуществления настоящего изобретения, могут быть непосредственно исполнены аппаратным процессором декодирования или исполнены сочетанием аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на устоявшемся в уровне техники запоминающем носителе, таком как RAM, флэш-память, ROM, программируемое постоянное запоминающее устройство, электрически стираемое программируемое запоминающее устройство или регистр. Запоминающий носитель расположен в запоминающем устройстве 1002. Процессор 1001 считывает команду из запоминающего устройства 1002 и выполняет этапы предшествующих способов совместно с аппаратным обеспечением.

[0204] Процессор 1001 выполнен с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала.

[0205] Процессор 1001 выполнен с возможностью получения опорного SSNR звукового сигнала.

[0206] В частности, опорное SSNR может быть SSNR, полученным через вычисление посредством использования формулы 1.1.

[0207] Процессор 1001 выполнен с возможностью использования заданного алгоритма для уменьшения опорной пороговой величины принятия решения относительно VAD с целью получения уменьшенной пороговой величины принятия решения относительно VAD.

[0208] В частности, опорная пороговая величина принятия решения относительно VAD может быть пороговой величиной принятия решения относительно VAD по умолчанию, и опорная пороговая величина принятия решения относительно VAD может быть предварительно сохранена или может быть временно получена посредством вычисления, при этом опорная пороговая величина принятия решения относительно VAD может быть вычислена посредством использования существующей хорошо известной технологии. При уменьшении опорной пороговой величины принятия решения относительно VAD посредством использования заданного алгоритма заданный алгоритм может представлять собой умножение опорной пороговой величины принятия решения относительно VAD на коэффициент, который меньше 1, или может использоваться другой алгоритм. Данный вариант осуществления настоящего изобретения не накладывает каких-либо ограничений на конкретный используемый алгоритм. Пороговая величина принятия решения относительно VAD может быть должным образом уменьшена посредством использования заданного алгоритма, так чтобы расширенное SSNR было больше уменьшенной пороговой величины принятия решения относительно VAD. Поэтому, доля необнаружений активного сигнала может быть уменьшена.

[0209] Процессор 1001 выполнен с возможностью сравнения опорного SSNR с уменьшенной пороговой величиной принятия решения относительно VAD для определения того, является ли звуковой сигнал активным сигналом.

[0210] Необязательно, в одном варианте осуществления, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

[0211] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

[0212] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше второго количества, и количество низкочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR меньше второй заданной пороговой величины, больше третьего количества.

[0213] Необязательно, в одном варианте осуществления, в случае, при котором процессор 1001 определяет звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

[0214] Необязательно, в одном варианте осуществления, процессор 1001 специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала в случае, при котором определено, что звуковой сигнал является безречевым сигналом. В частности, специалисту в данной области техники может быть понятно, что может существовать множество способов обнаружения того, является ли звуковой сигнал безречевым сигналом. Например, то, является ли звуковой сигнал безречевым сигналом, может быть определено посредством обнаружения ZCR звукового сигнала. В частности, в случае, при котором ZCR звукового сигнала больше пороговой величины ZCR, определяется, что звуковой сигнал является безречевым сигналом, при этом пороговая величина ZCR определяется согласно большому количеству экспериментов.

[0215] Первая заданная пороговая величина и вторая заданная пороговая величина могут быть получены посредством сбора статистики согласно большому количеству речевых образцов. В частности, статистика о подполосных SNR высокочастотных пограничных подполос собирается в большом количестве безречевых речевых образцов, включающих в себя фоновый шум, и первая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства высокочастотных пограничных подполос в этих безречевых образцах были больше первой заданной пороговой величины. Схожим образом статистика о подполосных SNR низкочастотных пограничных подполос собирается в этих безречевых речевых образцах, и вторая заданная пороговая величина определяется согласно подполосным SNR, так чтобы подполосные SNR большинства низкочастотных пограничных подполос в этих безречевых речевых образцах были меньше второй заданной пороговой величины.

[0216] Третья заданная пороговая величина также получается посредством сбора статистики. В частности, третья заданная пороговая величина определяется согласно подполосным SNR большого количества шумовых сигналов, так чтобы подполосные SNR большинства подполос в этих шумовых сигналах были меньше третьей заданной пороговой величины.

[0217] Первое количество, второе количество, третье количество и четвертое количество также получаются посредством сбора статистики. Первое количество используется в качестве примера, в котором в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для высокочастотных пограничных подполос, подполосные SNR которых больше первой заданной пороговой величины, и первое количество определяется согласно упомянутому количеству, так чтобы количество высокочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше первой заданной пороговой величины, было больше первого количества. Способ определения второго количества подобен способу определения первого количества. Второе количество может быть тем же самым что и первое количество, или может отличаться от первого количества. Схожим образом для третьего количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика касательно количества подполос для низкочастотных пограничных подполос, подполосные SNR которых больше второй заданной пороговой величины, и третье количество определяется согласно упомянутому количеству, так чтобы количество низкочастотных пограничных подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше второй заданной пороговой величины, было больше третьего количества. Для четвертого количества, в большом количестве речевых образцов, включающих в себя шум, собирается статистика о количестве подполос, подполосные SNR которых больше третьей заданной пороговой величины, и четвертое количество определяется согласно упомянутому количеству, так чтобы количество подполос, которые находятся в большинстве этих речевых образцов и чьи подполосные SNR больше третьей заданной пороговой величины, было больше четвертого количества.

[0218] Устройство 1000, изображенное на Фиг.10, может определить характерную особенность входного звукового сигнала, уменьшить опорную пороговую величину принятия решения относительно VAD согласно характерной особенности звукового сигнала и сравнить расширенное SSNR с уменьшенной пороговой величиной принятия решения относительно VAD, так чтобы доля необнаружения активного сигнала могла быть уменьшена.

[0219] Среднему специалисту в уровне техники может быть известно, что, совместно с примерами, описанными в вариантах осуществления, раскрытых в данной спецификации, блоки и этапы алгоритмов могут быть реализованы электронным аппаратным обеспечением или сочетанием компьютерного программного обеспечения и электронного аппаратного обеспечения. Выполнение упомянутых функций аппаратным обеспечением или программным обеспечением зависит от конкретных вариантов применения и условий конструктивных ограничений технических решений. Специалист в данной области техники может использовать различные способы для реализации описанных функций для каждого конкретного варианта применения, однако не следует считать, что такой вариант реализации выходит за пределы объема настоящего изобретения.

[0220] Специалисту в данной области техники может быть ясно понято, что, с целью удобного и краткого описания, для подробного процесса функционирования вышеупомянутой системы, устройства и блока, может быть сделана ссылка на соответствующий процесс в вышеупомянутых вариантах осуществлениях способов, и подробности в данном случае не описываются повторно.

[0221] В этих нескольких вариантах осуществления, предложенных в настоящей заявке, следует понимать, что раскрытая система, устройство и способ могут быть реализованы по-другому. Например, описанный вариант осуществления устройства является всего лишь примерным. Например, разделение блока является всего лишь логическим функциональным делением и может быть другим делением в фактическом варианте реализации. Например, множество блоков или компонентов может быть объединено или интегрировано в другую систему, или некоторые признаки могут быть проигнорированы или не выполнены. Кроме того, показываемые или обсуждаемые взаимные связи или прямые связи или соединения связи могут быть реализованы посредством использования некоторых интерфейсов. Косвенные связи или соединения связи между устройствами или блоками могут быть реализованы в электронной, механической или другой формах.

[0222] Блоки, описанные в качестве отдельных частей, могут быть или могут не быть физически отдельны, а части, показанные в качестве блоков, могут быть или могут не быть физическими блоками, могут быть расположены в одном положении, или могут быть распределены по множеству блоков сети. Некоторые или все блоки могут быть выбраны согласно фактическим потребностям для достижения целей решений вариантов осуществления.

[0223] Кроме того, функциональные блоки в вариантах осуществления настоящего изобретения могут быть объединены в один блок обработки, или каждый из блоков может существовать физически по отдельности, или два или более блоков объединяются в один блок.

[0224] Когда функции реализуются в виде функционального блока программного обеспечения и продаются или используются в качестве независимого продукта, то такие функции могут быть сохранены на считываемом компьютером запоминающем носителе. На основе такого понимания технические решения настоящего изобретения по существу или часть, вносящая вклад в предшествующий уровень техники, или часть технических решений могут быть реализованы в форме программного продукта. Программный продукт хранится на запоминающем носителе и включает в себя несколько команд для предписания вычислительному устройству (которое может быть персональным компьютером, сервером или сетевым устройством) или процессору, выполнять все или часть этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый запоминающий носитель включает в себя: любой носитель, который может хранить программный код, такой как карта флэш-памяти с интерфейсом USB, сменный жесткий диск, ROM, RAM, магнитный диск или оптический диск.

[0225] Вышеизложенные описания являются всего лишь частными вариантами осуществления настоящего изобретения, но не предназначены ограничивать объем защиты настоящего изобретения. Любое изменение или замена, легко придуманные специалистом в данной области техники внутри технического объема, раскрытого в настоящем изобретении, должны охватываться объема защиты настоящего изобретения. Поэтому, объем защиты настоящего изобретения подчинен объему защиты формулы изобретения.

Claims

1. Способ обнаружения звукового сигнала, содержащий этапы, на которых:

определяют входной звуковой сигнал в качестве подлежащего определению звукового сигнала;

определяют расширенное сегментное отношение (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и

сравнивают расширенное SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

2. Способ по п.1, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

3. Способ по п.2, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

4. Способ по п.2, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

5. Способ по п.1, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

определяют звуковой сигнал в качестве подлежащего определению звукового сигнала, если определено, что звуковой сигнал является безречевым сигналом.

6. Способ по п.3, в котором этап определения расширенного SSNR звукового сигнала содержит этапы, на которых:

определяют весовой коэффициент подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и

определяют расширенное SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

7. Способ по любому из пп.1-5, в котором этап определения расширенного SSNR звукового сигнала содержит этапы, на которых:

определяют опорное SSNR звукового сигнала; и

определяют расширенное SSNR согласно опорному SSNR звукового сигнала.

8. Способ по п.7, в котором этап определения расширенного SSNR согласно опорному SSNR звукового сигнала содержит этап, на котором:

определяют расширенное SSNR посредством использования следующей формулы:

, в которой

SSNR указывает опорное SSNR, SSNR' указывает расширенное SSNR, а x и y указывают параметры расширения.

9. Способ обнаружения звукового сигнала, содержащий этапы, на которых:

определяют весовой коэффициент подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы;

определяют расширенное сегментное отношение (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и

10. Способ по п.9, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

определяют звуковой сигнал в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

11. Способ по п.10, в котором этап определения входного звукового сигнала в качестве подлежащего определению звукового сигнала содержит этап, на котором:

12. Устройство для обнаружения звукового сигнала, содержащее:

первый блок определения, выполненный с возможностью определения входного звукового сигнала в качестве подлежащего определению звукового сигнала;

второй блок определения, выполненный с возможностью определения расширенного сегментного отношения (SSNR) сигнал-шум звукового сигнала, причем расширенное SSNR больше опорного SSNR; и

третий блок определения, выполненный с возможностью сравнения расширенного SSNR с пороговой величиной принятия решения относительно обнаружения (VAD) речевой активности для определения того, является ли звуковой сигнал активным сигналом, причем если расширенное SSNR больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является активным сигналом; или если расширенное SSNR не больше пороговой величины принятия решения относительно VAD, то определяется, что звуковой сигнал является неактивным сигналом.

13. Устройство по п.12, в котором первый блок определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному отношению (SNR) сигнал-шум звукового сигнала.

14. Устройство по п.13, в котором первый блок определения специально выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.

15. Устройство по п.13, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество подполос, которые находятся в звуковом сигнале и чьи значения подполосных SNR больше третьей заданной пороговой величины, больше четвертого количества.

16. Устройство по п.12, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если определено, что звуковой сигнал является безречевым сигналом.

17. Устройство по п.14, в котором второй блок определения выполнен с возможностью определения весового коэффициента подполосного SNR каждой подполосы в звуковом сигнале, причем весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы; и определения расширенного SSNR согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале.

18. Устройство по любому из пп.12-16, в котором второй блок определения выполнен с возможностью определения опорного SSNR звукового сигнала; и определения расширенного SSNR согласно опорному SSNR звукового сигнала.

19. Устройство по п.18, в котором второй блок определения специально выполнен с возможностью определения расширенного SSNR посредством использования следующей формулы:

, в которой

20. Устройство обнаружения звукового сигнала, содержащее:

второй блок определения, выполненный с возможностью определения весового коэффициента подполосного отношения (SNR) сигнал-шум каждой подполосы в звуковом сигнале, при этом весовой коэффициент подполосного SNR высокочастотной пограничной подполосы, подполосное SNR которой больше первой заданной пороговой величины, больше весового коэффициента подполосного SNR другой подполосы, и определения расширенного сегментного отношения (SSNR) сигнал-шум согласно подполосному SNR каждой подполосы и весовому коэффициенту подполосного SNR каждой подполосы в звуковом сигнале, причем расширенное SSNR больше опорного SSNR; и

21. Устройство по п.20, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала согласно подполосному SNR звукового сигнала.

22. Устройство по п.21, в котором первый блок определения выполнен с возможностью определения звукового сигнала в качестве подлежащего определению звукового сигнала, если количество высокочастотных пограничных подполос, которые находятся в звуковом сигнале и чьи подполосные SNR больше первой заданной пороговой величины, больше первого количества.