RU2006126530A

RU2006126530A - Способ и устройство для улучшения речевого сигнала в присутствии фонового шума

Info

Publication number: RU2006126530A
Application number: RU2006126530/09A
Authority: RU
Inventors: Милан ДЖЕЛИНЕК (CA); Милан ДЖЕЛИНЕК
Original assignee: Нокиа Корпорейшн (Fi); Нокиа Корпорейшн
Priority date: 2003-12-29
Filing date: 2004-12-29
Publication date: 2008-02-10
Also published as: CN100510672C; US8577675B2; AU2004309431C1; KR20060128983A; MY141447A; EP1700294B1; US20050143989A1; RU2329550C2; JP2007517249A; DE602004022862D1; ATE441177T1; AU2004309431A1; CN1918461A; BRPI0418449A; HK1099946A1; JP4440937B2; CA2550905A1; PT1700294E; EP1700294A4; TW200531006A

Claims

1. Способ подавления шумов в речевом сигнале, включающий:

проведение частотного анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и

группировку частотных бинов в множество полос частот, отличающийся тем, что, когда в речевом сигнале обнаруживают вокализованную речевую активность, для первого количества полос частот подавление шумов выполняют по частотным бинам, а для второго количества полос частот подавление шумов выполняют по полосам частот.

2. Способ по п.1, в котором первое количество полос частот определяют по количеству полос частот, которые являются вокализованными.

3. Способ по п.1, в котором первое количество полос частот определяют относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считают вокализованным.

4. Способ по п.3, в котором первое количество полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.

5. Способ по п.1, в котором первое количество полос частот равно заранее заданному фиксированному числу.

6. Способ по п.1, в котором, если ни одна из полос частот в речевом сигнале не является вокализованной, подавление шумов выполняют по полосам частот для всех полос частот.

7. Способ по п.1, в котором речевой сигнал включает речевые кадры, содержащие множество отсчетов, и способ по п.1 применяют для подавления шумов в речевом кадре.

8. Способ по п.7, включающий проведение частотного анализа согласно способу по п.1 с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.

9. Способ по п.7, включающий проведение первого частотного анализа с использованием первого окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра, и второго окна анализа, которое смещено на p отсчетов относительно первого отсчета речевого кадра.

10. Способ по п.9, в котором m=24 и p=128.

11. Способ по п.9, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.

12. Способ по п.1, включающий подавление шумов путем применения масштабирующего коэффициента передачи к частотным бинам и/или полосам частот.

13. Способ по п.1, который при подавлении шумов по частотным бинам включает определение специфичного для частотного бина масштабирующего коэффициента передачи.

14. Способ по п.1, который при подавлении шумов по полосам частот включает определение специфичного для полосы частот масштабирующего коэффициента передачи.

15. Способ по п.6, включающий подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.

16. Способ по п.13, включающий определение значения масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.

17. Способ по п.14, включающий определение значения масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.

18. Способ по п.16, включающий выполнение шагов по п.16 для каждого из первого и второго частотных анализов.

19. Способ по п.17, включающий выполнение шагов по п.17 для каждого из первого и второго частотных анализов.

20. Способ по любому из пп.12-14, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи.

21. Способ по любому из пп.12-14, включающий вычисление сглаженного масштабирующего коэффициента передачи, который должен быть применен к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, величина которого находится в обратном отношении к масштабирующему коэффициенту передачи для конкретного частотного бина или конкретной полосы частот.

22. Способ по любому из пп.12-14, включающий вычисление сглаженного масштабирующего коэффициента передачи, который должен быть применен к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяют так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.

23. Способ по п.13 или 14, в котором определение значения масштабирующего коэффициента передачи происходит n раз за речевой кадр, где n больше единицы.

24. Способ по п.23, в котором n=2.

25. Способ по п.13 или 14, включающий определение значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы, а граничная частоты вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.

26. Способ по п.13, в котором подавление шумов по частотным бинам выполняют максимально на 74 бинах, соответствующих 17 полосам частот.

27. Способ по п.13, в котором подавление шумов по частотным бинам выполняют на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.

28. Способ по п.16, в котором для первого значения отношения сигнал/шум величину масштабирующего коэффициента передачи устанавливают на минимальное значение, а для второго значения отношения сигнал/шум, большего, чем первое значение отношения сигнал/шум, величину масштабирующего коэффициента передачи устанавливают равной единице.

29. Способ по п.28, в котором первое значение отношения сигнал/шум составляет около 1 дБ, а второе значение отношения сигнал/шум составляет около 45 дБ.

30. Способ по п.20, включающий обнаружение сегментов речевого сигнала, которые не содержат активной речи.

31. Способ по п.30, включающий возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение сегмента речевого сигнала, который не содержит активной речи.

32. Способ по п.7, в котором подавление шумов не выполняют, если максимальная энергия шумов в множестве полос частот лежит ниже порогового значения.

33. Способ по п.7, дополнительно включающий, в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнение подавления шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот - выполнение подавления шумов путем применения единого значения масштабирующего коэффициента передачи.

34. Способ по п.33, в котором первые х полос частот соответствуют частотам до 1700 Гц.

35. Способ по п.20, который для узкополосного речевого сигнала дополнительно включает выполнение подавления шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнение подавления шумов путем применения значения масштабирующего коэффициента передачи частотного бина, соответствующего 3700 Гц, к бинам между частотами 3700 и 4000 Гц, и обнуление оставшихся полос частот частотного спектра речевого сигнала.

36. Способ по п.35, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.

37. Способ по п.3, дополнительно включающий определение граничной частоты вокализованности с использованием вычисленной меры вокализованности.

38. Способ по п.37, дополнительно включающий определение множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы установлены так, что подавление шумов по частотным бинам выполняют минимально на х полосах и максимально на у полосах.

39. Способ по п.38, в котором х=3 и у=17.

40. Способ по п.37, в котором граничную частоту вокализованности ограничивают так, чтобы она была не менее 325 Гц и не более 3700 Гц.

41. Устройство для подавления шумов в речевом сигнале, выполненное с возможностью:

проведения частотного анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и

группировки частотных бинов в множество полос частот,

отличающееся тем, что оно выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом сигнале вокализованной речевой активности выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.

42. Устройство по п.41, в котором первое количество полос частот определяется по количеству полос частот, которые являются вокализованными.

43. Устройство по п.41, которое выполнено с возможностью определять первое количество полос частот относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считается вокализованным.

44. Устройство по п.43, в котором первое количество полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.

45. Устройство по п.41, в котором первое количество полос частот равно заранее заданному фиксированному числу.

46. Устройство по п.41, которое выполнено с возможностью подавления шумов по полосам частот для всех полос частот, если ни одна полоса частот речевого сигнала не является вокализованной.

47. Устройство по п.41, в котором речевой сигнал включает речевые кадры, содержащие множество отсчетов, а указанное устройство выполнено с возможностью подавлять шум в речевом кадре.

48. Устройство по п.47, выполненное с возможностью проводить указанный частотный анализ с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.

49. Устройство по п.47, выполненное с возможностью проводить первый частотный анализ с использованием первого окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра, и второго окна анализа, которое смещено на p отсчетов относительно первого отсчета речевого кадра.

50. Устройство по п.49, в котором m=24 и p=128.

51. Устройство по п.49, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.

52. Устройство по п.41, которое выполнено с возможностью подавления шумов путем применения масштабирующих коэффициентов передачи к частотным бинам и/или полосам частот.

53. Устройство по п.41, которое выполнено с возможностью при подавлении шумов по частотным бинам определять специфичный для частотного бина масштабирующий коэффициент передачи.

54. Устройство по п.41, которое выполнено с возможностью при подавлении шумов по полосам частот определять специфичный для полосы частот масштабирующий коэффициент передачи.

55. Устройство по п.46, которое выполнено с возможностью выполнять подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.

56. Устройство по п.53, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.

57. Устройство по п.54, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.

58. Устройство по п.56, которое выполнено с возможностью выполнения шагов по п.56 для каждого из первого и второго частотных анализов.

59. Устройство по п.57, которое выполнено с возможностью выполнения шагов по п.57 для каждого из первого и второго частотных анализов.

60. Устройство по любому из пп.52-54, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи.

61. Устройство по любому из пп.52-54, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который должен быть применен к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, величина которого находится в обратной зависимости от масштабирующего коэффициента передачи для конкретного бина или конкретной полосы частот.

62. Устройство по любому из пп.52-54, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который должен быть применен к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяется так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.

63. Устройство по п.53 или 54, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы.

64. Устройство по п.63, в котором n=2.

65. Устройство по п.53 или 54, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы, а граничная частоты вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.

66. Устройство по п.53, которое выполнено с возможностью подавления шумов по частотным бинам максимально на 74 бинах, соответствующих 17 полосам частот.

67. Устройство по п.53, которое выполнено с возможностью подавления шумов по частотным бинам на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.

68. Устройство по п.56, которое выполнено с возможностью устанавливать величину масштабирующего коэффициента передачи на минимальное значение для первого значения отношения сигнал/шум и устанавливать величину масштабирующего коэффициента передачи равной единице для второго значения отношения сигнал/шум, большего, чем первое значение отношения сигнал/шум.

69. Устройство по п.68, в котором первое значение отношения сигнал/шум составляет около 1 дБ, а второе значение отношения сигнал/шум составляет около 45 дБ.

70. Устройство по п.60, выполненное с возможностью обнаруживать сегменты речевого сигнала, которые не содержат активной речи.

71. Устройство по п.70, выполненное с возможностью осуществлять возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение сегмента речевого сигнала, который не содержит активной речи.

72. Устройство по п.47, выполненное с возможностью не выполнять подавления шумов, если максимальная энергия шумов в множестве полос частот лежит ниже порогового значения.

73. Устройство по п.47, которое выполнено с возможностью в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнять подавление шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот выполнять подавление шумов путем применения единого значения масштабирующего коэффициента передачи.

74. Устройство по п.73, в котором первые х полос частот соответствуют частотам до 1700 Гц.

75. Устройство по п.60, которое выполнено с возможностью для узкополосного речевого сигнала выполнять подавление шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнять подавление шумов путем применения сглаженного масштабирующего коэффициента передачи частотного бина, соответствующего 3700 Гц, к бинам между 3700 и 4000 Гц и обнулять оставшиеся полосы частот частотного спектра речевого сигнала.

76. Устройство по п.75, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.

77. Устройство по п.43, которое выполнено с возможностью определения граничной частоты вокализованности с использованием вычисленной меры вокализованности.

78. Устройство по п.77, которое выполнено с возможностью определения множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы устанавливаются так, что подавление шумов по частотным бинам выполняется минимально на х полосах и максимально на у полосах.

79. Устройство по п.78, в котором х=3 и y=17.

80. Устройство по п.77, в котором граничная частота вокализованности ограничена так, чтобы она была не менее 325 Гц и не более 3700 Гц.

81. Речевой кодер, включающий устройство для подавления шумов, выполненное с возможностью:

отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом сигнале вокализованной речевой активности выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.

82. Система автоматического распознавания речи, включающая устройство для подавления шумов, выполненное с возможностью:

отличающаяся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом сигнале вокализованной речевой активности выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.

83. Мобильный телефон, включающий устройство для подавления шумов, выполненное с возможностью: