RU2010101881A

RU2010101881A - Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов

Info

Publication number: RU2010101881A
Application number: RU2010101881/09A
Authority: RU
Inventors: Владимир МАЛЕНОВСКИ (CA); Владимир МАЛЕНОВСКИ; Милан ЕЛИНЕК (CA); Милан ЕЛИНЕК; Томми ВАЙАНКУР (CA); Томми ВАЙАНКУР; Редван САЛАМИ (CA); Редван САЛАМИ
Original assignee: Войсэйдж Корпорейшн (Ca); Войсэйдж Корпорейшн
Priority date: 2007-06-22
Filing date: 2008-06-20
Publication date: 2011-07-27
Also published as: CA2690433C; EP2162880B1; WO2009000073A1; ES2533358T3; RU2441286C2; US8990073B2; CA2690433A1; WO2009000073A8; EP2162880A4; JP2010530989A; JP5395066B2; US20110035213A1; EP2162880A1

Abstract

1. Способ оценки тональности звукового сигнала, который включает: ! вычисление текущего остаточного спектра звукового сигнала; ! обнаружение пиков в текущем остаточном спектре; ! вычисление карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика; ! вычисление долгосрочной карты корреляции на основе вычисленной карты корреляции, причем долгосрочная карта корреляции характеризует тональность звукового сигнала. ! 2. Способ по п.1, отличающийся тем, что вычисление спектра текущего сигнала включает: ! поиск минимумов в спектре звукового сигнала в текущем кадре; ! оценку спектрального дна путем соединения минимумов друг с другом; ! вычитание оценки спектрального дна из спектра звукового сигнала в текущем кадре для получения текущего остаточного спектра. ! 3. Способ по п.1, отличающийся тем, что обнаружение пиков в текущем остаточном спектре включает определение положения максимума между каждой парой из двух последовательных минимумов. ! 4. Способ по п.1, отличающийся тем, что вычисление карты корреляции включает: ! вычисление для каждого пика, обнаруженного в текущем остаточном спектре, величины нормированной корреляции с предыдущим остаточным спектром по элементам разрешения по частоте между двумя последовательными минимумами в текущем остаточном спектре, которые ограничивают пик; и ! присвоение каждому обнаруженному пику оценки, соответствующей значению нормированной корреляции; и ! присвоение величины нормированной корреляции пика по элементам разрешения по частоте между двумя последовательными минимумами, ограничивающими пик, для каждого об�

Claims

1. Способ оценки тональности звукового сигнала, который включает:

вычисление текущего остаточного спектра звукового сигнала;

обнаружение пиков в текущем остаточном спектре;

вычисление карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика;

вычисление долгосрочной карты корреляции на основе вычисленной карты корреляции, причем долгосрочная карта корреляции характеризует тональность звукового сигнала.

2. Способ по п.1, отличающийся тем, что вычисление спектра текущего сигнала включает:

поиск минимумов в спектре звукового сигнала в текущем кадре;

оценку спектрального дна путем соединения минимумов друг с другом;

вычитание оценки спектрального дна из спектра звукового сигнала в текущем кадре для получения текущего остаточного спектра.

3. Способ по п.1, отличающийся тем, что обнаружение пиков в текущем остаточном спектре включает определение положения максимума между каждой парой из двух последовательных минимумов.

4. Способ по п.1, отличающийся тем, что вычисление карты корреляции включает:

вычисление для каждого пика, обнаруженного в текущем остаточном спектре, величины нормированной корреляции с предыдущим остаточным спектром по элементам разрешения по частоте между двумя последовательными минимумами в текущем остаточном спектре, которые ограничивают пик; и

присвоение каждому обнаруженному пику оценки, соответствующей значению нормированной корреляции; и

присвоение величины нормированной корреляции пика по элементам разрешения по частоте между двумя последовательными минимумами, ограничивающими пик, для каждого обнаруженного пика, чтобы сформировать карту корреляции.

5. Способ по п.1, отличающийся тем, что вычисление долгосрочной карты корреляции включает:

фильтрацию карты корреляции через однополюсный фильтр на элементе разрешения по частоте на основе элементов разрешения по частоте;

суммирование отфильтрованной карты корреляции по элементам разрешения по частоте с тем, чтобы получить суммарную долгосрочную карту корреляции.

6. Способ по п.1, отличающийся тем, что дополнительно включает обнаружение в звуковом сигнале сильных тонов.

7. Способ по п.6, отличающийся тем, что обнаружение сильных тонов в звуковом сигнале включает поиск по карте корреляции элементов разрешения по частоте, имеющих величину, которая превышает заданный фиксированный порог.

8. Способ по п.6, отличающийся тем, что обнаружение сильных тонов в звуковом сигнале включает сопоставление суммарной долгосрочной карты корреляции с адаптивным порогом, характеризующим звуковую активность в звуковом сигнале.

9. Способ по п.1, отличающийся тем, что дополнительно включает проверку присутствия сильных тонов.

10. Способ обнаружения звуковой активности в звуковом сигнале, где звуковой сигнал классифицируют как неактивный звуковой сигнал или активный звуковой сигнал, в соответствии с обнаруженной в звуковом сигнале звуковой активностью, который включает:

оценку параметра, связанного с тональностью звукового сигнала, применяемую для того, чтобы отличить музыкальный сигнал от сигнала фонового шума;

причем оценку тональности производят по одному из пп.1-9.

11. Способ по п.10, отличающийся тем, что дополнительно включает предотвращение модификации оценок энергии шума в случае обнаружения тонального звукового сигнала.

12. Способ по п.10, отличающийся тем, что обнаружение звуковой активности в звуковом сигнале дополнительно включает обнаружение звуковой активности на основе отношения сигнал/шум (SNR).

13. Способ по п.12, отличающийся тем, что обнаружение звуковой активности на основе отношения сигнал/шум (SNR) включает обнаружение звукового сигнала на основе частотно-зависимого отношения сигнал/шум (SNR).

14. Способ по п.12, отличающийся тем, что обнаружение звуковой активности на основе отношения сигнал/шум (SNR) включает сопоставление среднего отношения сигнал/шум (SNR _av) с порогом, вычисленным как функция долгосрочного отношения сигнал/шум (SNR _LT).

15. Способ по п.14, отличающийся тем, что обнаружение звуковой активности в звуковом сигнале на основе отношения сигнал/шум (SNR) дополнительно включает оценку энергии шума, произведенную в предыдущем кадре при вычислении SNR.

16. Способ по п.15, отличающийся тем, что обнаружение звуковой активности на основе отношения сигнал/шум (SNR) дополнительно включает модификацию оценок шума для следующего кадра.

17. Способ по п.16, отличающийся тем, что модификация оценок энергии шума для следующего кадра включает принятие решения о модификации, основанного, по меньшей мере, на одном из следующих показателей: устойчивости основного тона, вокализованности, параметра нестационарности звукового сигнала и отношения между линейными предсказаниями остаточных энергий погрешности второго и шестнадцатого порядка.

18. Способ по п.14, отличающийся тем, что включает классификацию звукового сигнала как неактивного звукового сигнала или активного звукового сигнала и включает обнаружение неактивного звукового сигнала в случае, если среднее отношение сигнал/шум (SNR _av) не превышает вычисленный порог.

19. Способ по п.14, отличающийся тем, что включает классификацию звукового сигнала как неактивного звукового сигнала или активного звукового сигнала и включает обнаружение активного звукового сигнала в случае, если среднее отношение сигнал/шум (SNR _av) превышает вычисленный порог.

20. Способ по п.10, отличающийся тем, что оценка параметра, связанного с тональностью звукового сигнала, предотвращает модификацию оценок энергии шума в случае обнаружения музыкального сигнала.

21. Способ по п.10, отличающийся тем, что дополнительно включает вычисление параметров комплементарной нестационарности и характера шума для установления отличия музыкального сигнала от сигнала фонового шума и предотвращения модификации оценок энергии шума на музыкальном сигнале.

22. Способ по п.21, отличающийся тем, что вычисление параметра комплементарной нестационарности включает вычисление параметра, подобного параметру обычной нестационарности, со сбросом долгосрочной энергии в случае обнаружения спектральной атаки.

23. Способ по п.22, отличающийся тем, что сброс долгосрочной энергии включает приравнивание долгосрочной энергии к энергии текущего кадра.

24. Способ по п.22, отличающийся тем, что обнаружение спектральной атаки и сброс долгосрочной энергии включает вычисление параметра спектральной разнородности.

25. Способ по п.24, отличающийся тем, что вычисление параметра спектральной разнородности включает:

вычисление отношения энергии звукового сигнала в текущем кадре к энергии звукового сигнала в предыдущем кадре для диапазонов частот, превышающих заданное число; и

вычисление спектральной разнородности как взвешенной суммы вычисленного отношения по всем диапазонам частот, превышающим заданное число.

26. Способ по п.22, отличающийся тем, что вычисление параметра комплементарной нестационарности дополнительно включает вычисление параметра предсказания активности, характеризующего активность звукового сигнала.

27. Способ по п.26, отличающийся тем, что вычисление параметра предсказания активности включает:

вычисление долгосрочного значения двоичного выбора, полученного из оценки параметра, связанного с тональностью звукового сигнала, и обычного параметра нестационарности.

28. Способ по п.21, отличающийся тем, что модификация оценок энергии шума предотвращается в случае, если параметр предсказания активности превышает первый заданный фиксированный порог, и параметр комплементарной нестационарности превышает второй заданный фиксированный порог.

29. Способ по п.21, отличающийся тем, что вычисление параметра характера шума включает:

разделение набора диапазонов частот на первую группу, содержащую определенное количество первых диапазонов частот, и вторую группу, содержащую остальные диапазоны частот;

вычисление первого значения энергии для первой группы диапазонов частот и второго значения энергии - для второй группы диапазонов частот;

вычисление отношения первого значения энергии ко второму с тем, чтобы получить параметр характера шума;

вычисление долгосрочного значения параметра характера шума на основе вычисленного параметра характера шума.

30. Способ по п.29, отличающийся тем, что модификация оценок энергии шума предотвращается в случае, если значение параметра характера шума не превышает заданный фиксированный порог.

31. Способ классификации звукового сигнала для оптимизации кодирования звукового сигнала с использованием классификации звукового сигнала, который включает:

обнаружение звуковой активности в звуковом сигнале;

классификацию звукового сигнала как активного звукового сигнала или неактивного звукового сигнала в соответствии со звуковой активностью, обнаруженной в звуковом сигнале;

в случае если звуковой сигнал классифицирован как активный звуковой сигнал, дальнейшую классификацию активного звукового сигнала как невокализованного речевого сигнала или речевого сигнала, не являющегося невокализованным;

причем классификация активного звукового сигнала как невокализованного речевого сигнала включает оценку тональности звукового сигнала для предотвращения классификации музыкальных сигналов как невокализованных речевых сигналов, причем оценку тональности выполняют по одному из пп.1-9.

32. Способ по п.31, отличающийся тем, что дополнительно включает кодирование звукового сигнала в соответствии с классификацией звукового сигнала.

33. Способ по п.32, отличающийся тем, что кодирование звукового сигнала в соответствии с классификацией звукового сигнала включает кодирование неактивных звуковых сигналов с генерацией комфортного шума.

34. Способ по п.31, отличающийся тем, что классификация активного звукового сигнала как невокализованного речевого сигнала включает вычисление правила принятия решения на основе, по меньшей мере, одного из параметров: степени вокализованности, степени среднего наклона спектра, максимального кратковременного увеличения энергии на низком уровне, тональной устойчивости и относительной энергии кадра.

35. Способ по п.31, отличающийся тем, что дополнительно включает классификацию речевого сигнала, не являющегося невокализованным, как устойчивого речевого сигнала или сигнала другого типа, отличающегося от устойчивого вокализованного речевого сигнала.

36. Способ по п.35, отличающийся тем, что классификация речевого сигнала, не являющегося невокализованным, как устойчивого вокализованного речевого сигнала включает вычисление правила принятия решения на основе, по меньшей мере, одной из оценок звукового сигнала: нормированной корреляции, среднего спектрального наклона и основного тона с разомкнутой петлей.

37. Способ кодирования верхнего диапазона звукового сигнала с использованием классификации звукового сигнала, который включает:

классификацию звукового сигнала как тонального звукового сигнала или нетонального звукового сигнала;

причем классификация звукового сигнала как тонального звукового сигнала содержит оценку тональности звукового сигнала по одному из пп.1-9.

38. Способ по п.37, отличающийся тем, что оценка параметра, связанного с тональностью звукового сигнала по одному из пп.1-9, дополнительно включает применение альтернативного способа для вычисления спектрального дна.

39. Способ по п.38, отличающийся тем, что применение альтернативного способа для вычисления спектрального дна включает фильтрацию log-энергии спектра звукового сигнала в текущем кадре с использованием фильтра скользящего среднего.

40. Способ по п.37, отличающийся тем, что оценка тональности звукового сигнала по одному из пп.1-9 дополнительно включает сглаживание остаточного спектра посредством кратковременного фильтра скользящего среднего.

41. Способ по п.37, отличающийся тем, что дополнительно включает кодирование верхнего диапазона звукового сигнала в соответствии с классификацией указанного звукового сигнала.

42. Способ по п.41, отличающийся тем, что кодирование верхнего диапазона звукового сигнала в соответствии с классификацией указанного звукового сигнала включает кодирование тональных звуковых сигналов с использованием модели, оптимизированной для этих сигналов.

43. Способ по п.37, отличающийся тем, что верхний диапазон звукового сигнала включает диапазон частот выше 7 КГц.

44. Устройство для оценки тональности звукового сигнала, включающее:

средства для вычисления текущего остаточного спектра звукового сигнала;

средства для обнаружения пиков в текущем остаточном спектре;

средства для вычисления карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика; и

средства для вычисления долгосрочной карты корреляции на основе вычисленной карты корреляции, причем долгосрочная карта корреляции характеризует тональность звукового сигнала.

45. Устройство для оценки тональности звукового сигнала, включающее:

вычислитель текущего остаточного спектра звукового сигнала;

детектор пиков в текущем остаточном спектре;

вычислитель карты корреляции между текущим остаточным спектром и предыдущим остаточным спектром для каждого обнаруженного пика;

вычислитель долгосрочной карты корреляции на основе вычисленной карты корреляции, причем долгосрочная карта корреляции характеризует тональность звукового сигнала.

46. Устройство по п.45, отличающееся тем, что вычислитель текущего остаточного спектра включает:

устройство обнаружения минимумов в спектре звукового сигнала в текущем кадре;

устройство оценки спектрального дна, которое соединяет минимумы друг с другом; и

вычитатель оценки спектрального дна из спектра с тем, чтобы получить текущий остаточный спектр.

47. Устройство по п.45, отличающееся тем, что вычислитель долгосрочной карты корреляции включает:

фильтр для фильтрации карты корреляции на основе элементов разрешения по частоте;

сумматор для суммирования отфильтрованной карты корреляции на элементах разрешения по частоте с тем, чтобы получить суммарную долгосрочную карту корреляции.

48. Устройство по п.45, отличающееся тем, что дополнительно включает детектор сильных тонов в звуковом сигнале.

49. Устройство для обнаружения звуковой активности в звуковом сигнале, где звуковой сигнал классифицируют как неактивный звуковой сигнал или активный звуковой сигнал в соответствии с обнаруженной звуковой активностью, которое включает:

средства для оценки параметра, связанного с тональностью звукового сигнала, которые применяют для установления отличия музыкального сигнала от сигнала фонового шума;

причем средства оценки параметра тональности включают устройство по п.44.

50. Устройство для обнаружения звуковой активности в звуковом сигнале, где звуковой сигнал классифицируют как неактивный звуковой сигнал или активный звуковой сигнал в соответствии с обнаруженной звуковой активностью, которое включает:

эстиматор тональности звукового сигнала, применяемый для установления отличия музыкального сигнала от сигнала фонового шума;

причем эстиматор тональности включает устройство по одному из пп.45-48.

51. Устройство по п.50, отличающееся тем, что дополнительно включает детектор звуковой активности на основе отношения сигнал/шум (SNR).

52. Устройство по п.51, отличающееся тем, что детектор звуковой активности на основе отношения сигнал/шум (SNR) включает компаратор среднего отношения сигнал/шум (SNR _av) с порогом, являющимся функцией долгосрочного отношения сигнал/шум (SNR _TL).

53. Устройство по п.50, отличающееся тем, что дополнительно включает эстиматор для модификации оценок энергии шума при вычислении отношения сигнал/шум (SNR) в детекторе звуковой активности на основе отношения сигнал/шум (SNR).

54. Устройство по п.50, отличающееся тем, что дополнительно включает вычислитель параметра комплементарной нестационарности и вычислитель характера шума звукового сигнала для установления отличия музыкального сигнала от сигнала фонового шума и предотвращения модификации оценок энергии шума.

55. Устройство по п.50, отличающееся тем, что дополнительно включает вычислитель спектрального параметра, применяемого для обнаружения в звуковом сигнале изменений спектра и спектральных атак.

56. Устройство для классификации звукового сигнала с целью оптимизации кодирования звукового сигнала с использованием классификации звукового сигнала, которое включает:

средства для обнаружения звуковой активности в звуковом сигнале;

средства для классификации звукового сигнала как активного звукового сигнала или неактивного звукового сигнала в соответствии с обнаруженной в звуковом сигнале звуковой активностью;

в случае, если звуковой сигнал классифицирован как активный звуковой сигнал, средства для дальнейшей классификации активного звукового сигнала как невокализованного речевого сигнала или речевого сигнала, не являющегося невокализованным;

причем средства для дальнейшей классификации звукового сигнала как невокализованного речевого сигнала содержат средства для оценки параметра, связанного с тональностью звукового сигнала, для предотвращения классификации музыкальных сигналов как невокализованных речевых сигналов, где средства для оценки параметра, связанного с тональностью звукового сигнала, включают устройство по одному из пп.45-48.

57. Устройство для классификации звукового сигнала с целью оптимизации кодирования звукового сигнала с использованием классификации звукового сигнала, которое включает:

детектор звуковой активности в звуковом сигнале;

первый классификатор звукового сигнала для классификации звукового сигнала как активного звукового сигнала или неактивного звукового сигнала в соответствии с обнаруженной в звуковом сигнале звуковой активностью;

второй классификатор звукового сигнала, соединенный с первым классификатором звукового сигнала, для классификации активного звукового сигнала как невокализованного речевого сигнала или речевого сигнала, не являющегося невокализованным,

где детектор звуковой активности включает эстиматор тональности для измерения тональности звукового сигнала для оценки тональности звукового сигнала с целью предотвращения классификации музыкальных сигналов как невокализованных речевых сигналов, который включает устройство по одному из пп.45-48.

58. Устройство по п.57, отличающееся тем, что дополнительно включает кодировщик звука для кодирования звукового сигнала в соответствии с классификацией звукового сигнала.

59. Устройство по п.58, отличающееся тем, что кодировщик звука включает кодировщик шума для кодирования неактивных звуковых сигналов.

60. Устройство по п.58, отличающееся тем, что кодировщик звука включает оптимизированный кодер невокализованной речи.

61. Устройство по п.58, отличающееся тем, что кодировщик звука включает оптимизированный кодер вокализованной речи для кодирования устойчивых вокализованных сигналов.

62. Устройство по п.58, отличающееся тем, что кодировщик звука включает обобщенный кодер звукового сигнала для кодирования быстро развивающихся вокализованных сигналов.

63. Устройство для кодирования верхнего диапазона звукового сигнала с использованием классификации звукового сигнала, которое включает:

средства для классификации звукового сигнала как тонального звукового сигнала или нетонального звукового сигнала;

средства для кодирования верхнего диапазона классифицированного звукового сигнала,

где средства для классификации звукового сигнала как тонального включают устройство для оценки тональности звукового сигнала по одному из пп.45-48.

64. Устройство для кодирования верхнего диапазона звукового сигнала с использованием классификации звукового сигнала, которое включает:

классификатор звукового сигнала для классификации звукового сигнала как тонального звукового сигнала или нетонального звукового сигнала;

кодировщик звука для кодирования верхнего диапазона классифицированного звукового сигнала,

где классификатор звукового сигнала включает устройство для оценки тональности звукового сигнала по одному из пп.45-48.

65. Устройство по п.64, отличающееся тем, что дополнительно включает фильтр скользящего среднего для вычисления спектрального дна, полученного из звукового сигнала, где спектральное дно применяют для оценки тональности звукового сигнала.

66. Устройство по п.64, отличающееся тем, что дополнительно включает кратковременный фильтр скользящего среднего для сглаживания остаточного спектра звукового сигнала, где остаточный спектр применяют для оценки тональности звукового сигнала.