RU2022106058A

RU2022106058A - Обработка аудиоданных на основе карты направленной громкости

Info

Publication number: RU2022106058A
Application number: RU2022106058A
Authority: RU
Inventors: Юрген ХЕРРЕ; Пабло Мануэль ДЕЛЬГАДО; Саша ДИК
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2018-10-26
Filing date: 2019-10-28
Publication date: 2022-04-05
Also published as: EP4220639A1; JP7526173B2; US20210383820A1; WO2020084170A1; JP2022177253A; RU2022106060A; EP3871216A1; JP2022505964A; BR112021007807A2; CN113302692A; EP4213147A1

Claims

1. Модуль (100) анализа аудиоданных,

причем модуль (100) анализа аудиоданных выполнен с возможностью получения представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b);

причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении, ассоциированной со спектральными полосами представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области;

причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (142, 142₁, 142₂, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), в качестве результата анализа,

причем вклады (132, 132₁, 132₂, 135₁, 135₂) в информацию (142, 142₁, 142₂, 142a, 142b) о громкости определяются в зависимости от информации (122, 122₁, 122₂, 125, 127) о направлении.

2. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения множества взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области на основе представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b);

причем значения одного или более представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области взвешены (134) в зависимости от различных направлений (125) звуковых компонентов в двух или более входных аудиосигналах (112, 112₁, 112₂, 112₃, 112a, 112b) для получения множества взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области;

причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (142, 142₁, 142₂, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), на основе взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области в качестве результата анализа.

3. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью выполнения декомпозиции двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b) в область кратковременного преобразования Фурье (STFT) для получения двух или более преобразованных аудиосигналов (110, 110₁, 110₂, 110a, 110b).

4. Модуль (100) анализа аудиоданных по п. 3, причем модуль (100) анализа аудиоданных выполнен с возможностью группирования спектральных интервалов двух или более преобразованных аудиосигналов (110, 110₁, 110₂, 110a, 110b) в спектральные полосы двух или более преобразованных аудиосигналов (110, 110₁, 110₂, 110a, 110b); и причем модуль (100) анализа аудиоданных выполнен с возможностью взвешивания спектральных полос с использованием разных весовых коэффициентов на основе модели (116) внешнего уха и среднего уха, получать одно или более представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b).

5. Модуль (100) анализа аудиоданных по п. 1, в котором два или более входных аудиосигнала (112, 112₁, 112₂, 112₃, 112a, 112b) ассоциированы с различными направлениями или разными положениями громкоговорителей.

6. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания (127, 122) для каждого спектрального интервала и для множества заданных направлений (121).

7. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания (127, 122) с использованием гауссовой функции, в результате чего зависящее от направления взвешивание (127, 122) уменьшается с увеличением отклонения между соответствующими извлеченными значениями (125, 122) направлений и соответствующими значениями (121) заданного направления.

8. Модуль (100) анализа аудиоданных по п. 7, причем модуль (100) анализа аудиоданных выполнен с возможностью определения значений индекса панорамирования как извлеченные значения (125, 122) направлений.

9. Модуль (100) анализа аудиоданных по п. 7, причем модуль (100) анализа аудиоданных выполнен с возможностью определения извлеченных значений (125, 122) направлений в зависимости от спектральных значений домена (110) из входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112_b).

10. Модуль (100) анализа аудиоданных по п. 6, в котором модуль (100) анализа аудиоданных выполнен с возможностью получения зависящего от направления взвешивания (127, 122)

, ассоциированного с заданным направлением (121), временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с

,

где

- заданное значение;

где

обозначает извлеченные значения (125, 122) направлений, ассоциированные со временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k; и

где

- значение направления, которое обозначает заданное направление (121).

11. Модуль (100) анализа аудиоданных по п. 6, причем модуль (100) анализа аудиоданных выполнен с возможностью применения зависящего от направления взвешивания (127, 122) к одному или более представлениям (110, 110₁, 110₂, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b) для получения взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области.

12. Модуль (100) анализа аудиоданных по п. 6, причем модуль (100) анализа аудиоданных выполнен с возможностью получения взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области,

в результате чего компоненты сигнала, имеющие ассоциированное первое заданное направление (121), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (125) в первом взвешенном представлении (135, 135₁, 135₂, 132) в спектральной области, и

в результате чего компоненты сигнала, имеющие ассоциированное второе заданное направление (121), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (125) во втором взвешенном представлении (135, 135₁, 135₂, 132) в спектральной области.

13. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области

, ассоциированных с входным аудиосигналом или объединением входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b) (112, 112₁, 112₂, 112₃, 112a, 112b), обозначенным индексом i, спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом

, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с

где

обозначает представление (110) в спектральной области, ассоциированное с входным аудиосигналом (112) или объединением входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b), обозначенным индексом i, спектральной полосой, обозначенной индексом b, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k; и

где

обозначает зависящее от направления взвешивание (127, 122), ассоциированное с направлением (121), обозначенным индексом

, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.

14. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения среднего значения по множеству значений (145) громкости частотных полос для получения значения (142) объединенной громкости.

15. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения значений (145) громкости частотных полос для множества спектральных полос на основе взвешенного объединенного представления (137) в спектральной области, представляющего множество входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b); и

причем модуль (100) анализа аудиоданных выполнен с возможностью получения в качестве результата анализа множества значений (142) объединенной громкости на основе полученных значений громкости (145) частотных полос для множества различных направлений (121).

16. Модуль (100) анализа аудиоданных по п. 14, причем модуль (100) анализа аудиоданных выполнен с возможностью вычисления среднего значения квадратов спектральных значений взвешенного объединенного представления (137) в спектральной области по спектральным значениям частотной полосы и применять возведение в степень с показателем между 0 и 1/2 к среднему значению квадратов спектральных значений для определения значения (145) громкости частотных полос.

17. Модуль (100) анализа аудиоданных по п. 14, причем модуль (100) анализа аудиоданных выполнен с возможностью получения значений (145) громкости частотных полос

, ассоциированные со спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом

, временем, обозначенным временным индексом m, в соответствии с

где K_b обозначает количество спектральных интервалов в частотной полосе, имеющей индекс частотной полосы b;

где k - бегущая переменная, которая обозначает спектральные интервалы в частотной полосе, имеющей индекс частотной полосы b;

где b обозначает спектральную полосу; и

где

обозначает взвешенное объединенное представление (137) в спектральной области, ассоциированное со спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом

18. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения множества значений (142) объединенной громкости L(m,

), ассоциированных с направлением (121), обозначенным индексом

, и временем, обозначенным временным индексом m, в соответствии с

где B обозначает общее количество спектральных полос b, и

где

обозначает значения (145) громкости частотных полос, ассоциированные со спектральной полосой, обозначенный индексом b, направлением (121), обозначенным индексом

, и временем, обозначенным временным индексом m.

19. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью распределения вкладов (132, 132₁, 132₂, 135₁, 135₂) громкости в интервалы гистограммы, ассоциированные с различными направлениями (121), в зависимости от информации (122, 122₁, 122₂, 125, 127) о направлении для получения результата анализа.

20. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации о громкости, ассоциированной со спектральными интервалами, на основе представлений (110, 110₁, 110₂, 110a, 110b) в спектральной области, и причем модуль (100) анализа аудиоданных выполнен с возможностью добавления вклада (132, 132₁, 132₂, 135₁, 135₂) громкости к одному или более интервалам гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом; причем выбор, к какому одному или более интервалам гистограммы делается вклад (132, 132₁, 132₂, 135₁, 135₂) громкости, основан на определении информации о направлении для определённого спектрального интервала.

21. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью добавления вкладов (132, 132₁, 132₂, 135₁, 135₂) громкости к множеству интервалов гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом, таким образом, что наибольший вклад (132, 132₁, 132₂, 135₁, 135₂) добавляется к интервалу гистограммы, ассоциированному с направлением (121), которое соответствует информации (125, 122) о направлении, ассоциированной с определённым спектральным интервалом, и таким образом, что сокращенные вклады (132, 132₁, 132₂, 135₁, 135₂) добавляются к одному или более интервалам гистограммы, ассоциированным с дополнительными направлениями (121).

22. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении на основе аудиосодержимого двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b).

23. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении на основе анализа амплитудного панорамирования аудиосодержимого; и/или

причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении на основе анализа фазового соотношения, и/или временной задержки, и/или корреляции между аудиосодержимым двух или более входных аудиосигналов (112, 112₁, 112₂, 112₃, 112a, 112b); и/или

причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении на основе идентификации расширенных истоков, и/или

причем модуль анализа аудиоданных выполнен с возможностью получения информации (122, 122₁, 122₂, 125, 127) о направлении с использованием соответствия спектральной информации входящего аудиоданных и шаблонов, ассоциированных с функциями моделирования восприятия аудиоданных в различных направлениях.

24. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью распространения информации о громкости во множестве направлений (121) в соответствии с правилом распространения.

25. Модуль (200) оценки сходства аудиоданных,

причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 142₁, 142₂, 142a, 142b) о громкости, ассоциированную с различными направлениями (121), на основе первого множества из двух или более входных аудиосигналов (112a), и

причем модуль (200) оценки сходства аудиоданных выполнен с возможностью сравнения (220) первой информации (142, 142₁, 142₂, 142a, 142b) о громкости со второй информацией (142, 142₁, 142₂, 142a, 142b) о громкости, ассоциированной с различными направлениями панорамирования, и с множеством из двух или более эталонных аудиосигналов (112b) для получения информации (210) о сходстве, описывающей сходство между первым множеством из двух или более входных аудиосигналов (112a) и множеством из двух или более эталонных аудиосигналов (112b).

26. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 142₁, 142₂, 142a, 142b) о громкости таким образом, что первая информация (142, 142₁, 142₂, 142a, 142b) о громкости содержит множество значений (142) объединенной громкости, ассоциированных с первым множеством из двух или более входных аудиосигналов (112a), и ассоциированных с соответствующими заданными направлениями (121), в которых значения (142) объединенной громкости из первой информации (142, 142₁, 142₂, 142a, 142b) о громкости описывают громкость компонентов сигнала первого множества из двух или более входных аудиосигналов (112a), ассоциированных с соответствующими заданными направлениями (121).

27. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 142₁, 142₂, 142a, 142b) о громкости таким образом, что первая информация (142, 142₁, 142₂, 142a, 142b) о громкости ассоциирована с комбинациями множества взвешенных представлений (135, 135₁, 135₂, 132) в спектральной области первого множества из двух или более входных аудиосигналов (112a), ассоциированных с соответствующими заданными направлениями (121).

28. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью определения разности (210) между второй информацией (142, 142₁, 142₂, 142a, 142b) о громкости и первой информацией (135, 135₁, 135₂, 132) о громкости, чтобы получить разностную информацию (210) о громкости.

29. Модуль (200) оценки сходства аудиоданных по п. 28, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью определения значения (210), которое определяет величину разности (210) по множеству направлений.

30. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 142₁, 142₂, 142a, 142b) о громкости и/или второй информации (142, 142₁, 142₂, 142a, 142b) о громкости с использованием модуля (100) анализа аудиоданных по одному из пп. 1-24.

31. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения компонента направления, используемого для получения информации (142, 142₁, 142₂, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированную с входными аудиосигналами (112, 112₁, 112₂, 112₃, 112a, 112b).

32. Способ (1000) анализа аудиосигнала, причём способ содержит этапы, на которых

получают (1100) множество взвешенных представлений в спектральной области на основе одного или более представлений в спектральной области двух или более входных аудиосигналов,

причем значения одного или более представлений в спектральной области нагружаются (1200) в зависимости от различных направлений звуковых компонентов в двух или более входных аудиосигналах для получения множества взвешенных представлений в спектральной области; и

получают (1300) информацию о громкости, ассоциированную с различными направлениями, на основе множества взвешенных представлений в спектральной области в качестве результата анализа.

33. Способ (2000) оценки сходства аудиосигналов, способ содержит этапы, на которых

получают (2100) первую информацию о громкости, ассоциированную с различными направлениями, на основе первого множества из двух или более входных аудиосигналов, и сравнивают (2200) первую информацию о громкости со второй информацией о громкости, ассоциированной с различными направлениями панорамирования, и с множеством из двух или более эталонных аудиосигналов для получения (2300) информации о сходстве, описывающей сходство между первым множеством из двух или более входных аудиосигналов и множеством из двух или более эталонных аудиосигналов.

34. Компьютерная программа, имеющая программный код для выполнения способа по п. 32 или 33 при его выполнении на компьютере.