RU2020115048A

RU2020115048A - УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ

Info

Publication number: RU2020115048A
Application number: RU2020115048A
Authority: RU
Inventors: Гийом ФУКС; Юрген ХЕРРЕ; Фабиан КЮХ; Штефан ДЁЛА; Маркус МУЛЬТРУС; Оливер ТИРГАРТ; Оливер ВЮББОЛЬТ; Флорин ГИДО; Штефан БАЙЕР; Вольфганг ЕГЕРС
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2017-10-04
Filing date: 2018-10-01
Publication date: 2021-11-08
Also published as: TW202016925A; US20220150633A1; EP3692523A1; ZA202001726B; US20200221230A1; AU2018344830B2; ES2907377T3; KR20220133311A; CA3134343A1; AU2021290361B2; MX2020003506A; JP7297740B2; EP3975176A2; PL3692523T3; US11729554B2; AU2021290361A1; RU2020115048A3; EP3975176A3; CA3219540A1; PT3692523T

Claims

1. Устройство для формирования описания объединенной аудиосцены, содержащее:

интерфейс (100) ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата;

преобразователь (120) форматов для преобразования первого описания в общий формат и для преобразования второго описания в общий формат, когда второй формат отличается от общего формата; и

объединитель (140) форматов для объединения первого описания в общем формате и второго описания в общем формате для получения объединенной аудиосцены.

2. Устройство по п. 1

при этом первый формат и второй формат выбираются из группы форматов, содержащей формат Ambisonics (Амбисоник) первого порядка, формат Ambisonics высокого порядка, общий формат, формат DirAC, формат аудиообъекта и многоканальный формат.

3. Устройство по п. 1,

в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов B-формата и преобразования второго описания во второе представление сигналов B-формата, и

в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов B-формата путем отдельного объединения отдельных компонентов первого и второго представления сигналов B-формата.

4. Устройство по п. 1,

в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов давления/скорости и преобразования второго описания во второе представление сигналов давления/скорости, и

в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов давления/скорости путем отдельного объединения отдельных компонентов представлений сигналов давления/скорости для получения объединенного представления сигналов давления/скорости.

5. Устройство по п. 1,

в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление параметров DirAC и преобразования второго описания во второе представление параметров DirAC, когда второе описание отличается от представления параметров DirAC, и

в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представлений параметров DirAC путем отдельного объединения отдельных компонентов первого и второго представления параметров DirAC для получения объединенного представления параметров DirAC для объединенной аудиосцены.

6. Устройство по п. 5,

в котором объединитель (140) форматов выполнен с возможностью формирования значений направления поступления для частотно-временных мозаичных фрагментов или значений направления поступления и значений диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.

7. Устройство по п. 1,

дополнительно содержащее анализатор (180) DirAC для анализа объединенной аудиосцены, чтобы извлекать параметры DirAC для объединенной аудиосцены,

при этом параметры DirAC содержат значения направления поступления для частотно-временных мозаичных фрагментов или значения направления поступления и значения диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.

8. Устройство по п. 1,

дополнительно содержащее генератор (160) транспортного канала для формирования сигнала транспортного канала из объединенной аудиосцены или из первой сцены и второй сцены, и

кодер (170) транспортного канала для базового кодирования сигнала транспортного канала, или

в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в формате Ambisonics первого порядка или Ambisonics более высокого порядка с использованием формирователя диаграммы направленности, направленного в левую позицию или правую позицию, соответственно, или

в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в многоканальном представлении путем понижающего микширования трех или более каналов многоканального представления, или

в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в представлении аудиообъекта путем панорамирования каждого объекта с использованием позиции объекта или путем понижающего микширования объектов в стереофоническое понижающее микширование с использованием информации, указывающей, какой объект располагается в каком стереоканале, или

в котором генератор (160) транспортного канала выполнен с возможностью сложения только левого канала стереосигнала с левым транспортным каналом понижающего микширования и сложения только правого канала стереосигнала для получения правого транспортного канала, или

в котором общий формат является B-форматом и при этом генератор (160) транспортного канала выполнен с возможностью обработки объединенного представления B-формата для извлечения сигнала транспортного канала, при этом обработка содержит выполнение операции формирования диаграммы направленности или извлечение подмножества компонентов сигнала B-формата, таких как всенаправленный компонент, в качестве транспортного моноканала, или

при этом обработка содержит формирование диаграммы направленности с использованием всенаправленного сигнала и компонента Y с противоположными знаками B-формата для вычисления левого и правого каналов, или

при этом обработка содержит операцию формирования диаграммы направленности с использованием компонентов B-формата и заданного азимутального угла и заданного угла возвышения, или

в котором генератор (160) транспортного канала выполнен с возможностью предоставления сигналов B-формата объединенной аудиосцены кодеру транспортного канала, при этом любые пространственные метаданные не включаются в вывод объединенной аудиосцены посредством объединителя (140) форматов.

9. Устройство по п. 1, дополнительно содержащее:

кодер (190) метаданных

для кодирования метаданных DirAC, описанных в объединенной аудиосцене, для получения кодированных метаданных DirAC, или

для кодирования метаданных DirAC, извлеченных из первой сцены, для получения первых кодированных метаданных DirAC и для кодирования метаданных DirAC, извлеченных из второй сцены, для получения вторых кодированных метаданных DirAC.

10. Устройство по п. 1, дополнительно содержащее:

интерфейс (200) вывода для формирования кодированного выходного сигнала, представляющего собой объединенную аудиосцену, причем выходной сигнал содержит кодированные метаданные DirAC и один или более кодированных транспортных каналов.

11. Устройство по п. 1,

в котором преобразователь (120) форматов выполнен с возможностью преобразования формата Ambisonics высокого порядка или Ambisonics первого порядка в B-формат, при этом формат Ambisonics высокого порядка усекается перед преобразованием в B-формат, или

в котором преобразователь (120) форматов выполнен с возможностью проецирования объекта или канала на сферические гармоники в опорной позиции для получения спроецированных сигналов, и при этом объединитель (140) форматов выполнен с возможностью объединения сигналов проекции для получения коэффициентов B-формата, при этом объект или канал располагается в пространстве в указанной позиции и имеет необязательное отдельное расстояние от опорной позиции, или

в котором преобразователь (120) форматов выполнен с возможностью выполнения анализа DirAC, содержащего частотно-временной анализ компонентов B-формата и определение векторов давления и скорости, и при этом объединитель (140) форматов выполнен с возможностью объединения разных векторов давления/скорости, и при этом объединитель (140) форматов дополнительно содержит анализатор DirAC для извлечения метаданных DirAC из объединенных данных давления/скорости, или

в котором преобразователь (120) форматов выполнен с возможностью извлечения параметров DirAC из метаданных объекта формата аудиообъекта в качестве первого или второго формата, при этом вектор давления является сигналом формы волны объекта и направление извлекается из позиции объекта в пространстве, или диффузность непосредственно задается в метаданных объекта или устанавливается в значение по умолчанию, такое как значение 0, или

в котором преобразователь (120) форматов выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и объединитель (140) форматов выполнен с возможностью объединения данных давления/скорости с данными давления/скорости, извлеченными из другого описания одного или более других аудиообъектов, или

в котором преобразователь (120) форматов выполнен с возможностью непосредственного извлечения параметров DirAC, и при этом объединитель (140) форматов выполнен с возможностью объединения параметров DirAC для получения объединенной аудиосцены.

12. Устройство по п. 1, в котором преобразователь (120) форматов содержит:

анализатор (180) DirAC для формата ввода Ambisonics первого порядка или Ambisonics высокого порядка или формата многоканального сигнала;

преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных объекта в метаданные DirAC или для преобразования многоканального сигнала с независимой от времени позицией в метаданные DirAC; и

объединитель (144) метаданных для объединения отдельных потоков метаданных DirAC или объединения метаданных направления поступления из нескольких потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или для объединения метаданных диффузности из разных потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или

при этом объединитель (144) метаданных выполнен с возможностью вычисления для временного/частотного бина первого описания первой сцены значения энергии и значения направления поступления, и вычисления для временного/частотного бина второго описания второй сцены значения энергии и значения направления поступления, и при этом объединитель (140) форматов выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного значения направления поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.

13. Устройство по п. 1, дополнительно содержащее интерфейс (200, 300) вывода для добавления в объединенный формат отдельного описания объекта для аудиообъекта, причем описание объекта содержит по меньшей мере одно из направления, расстояния, диффузности или любого другого атрибута объекта, при этом объект имеет одно направление по всем полосам частот и является либо статическим, либо движущимся медленнее порогового значения скорости.

14. Способ формирования описания объединенной аудиосцены, содержащий этапы, на которых:

принимают первое описание первой сцены в первом формате и принимают второе описание второй сцены во втором формате, при этом второй формат отличается от первого формата;

преобразуют первое описание в общий формат и преобразуют второе описание в общий формат, когда второй формат отличается от общего формата; и

объединяют первое описание в общем формате и второе описание в общем формате для получения объединенной аудиосцены.

15. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 14.

16. Устройство для выполнения синтеза множества аудиосцен, содержащее:

интерфейс (100) ввода для приема первого описания DirAC первой сцены и для приема второго описания DirAC второй сцены и одного или более транспортных каналов; и

блок (220) синтеза DirAC для синтеза множества аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и

спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.

17. Устройство по п. 16, в котором блок синтеза DirAC содержит:

объединитель (221) сцен для объединения первого описания DirAC и второго описания DirAC в объединенное описание DirAC; и

рендерер (222) DirAC для рендеринга объединенного описания DirAC с использованием одного или более транспортных каналов для получения аудиосигнала в спектральной области, или

при этом объединитель (221) сцен выполнен с возможностью вычисления, для временного/частотного бина первого описания первой сцены, значения энергии и значения направления поступления, и вычисления, для временного/частотного бина второго описания второй сцены, значения энергии и значения направления поступления, и при этом объединитель (221) сцен выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного направления значения поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.

18. Устройство по п. 16,

в котором интерфейс (100) ввода выполнен с возможностью приема для описания DirAC отдельного транспортного канала и отдельных метаданных DirAC,

при этом блок (220) синтеза DirAC выполнен с возможностью рендеринга каждого описания с использованием транспортного канала и метаданных для соответствующего описания DirAC, чтобы получить аудиосигнал в спектральной области для каждого описания, и объединения аудиосигнала в спектральной области для каждого описания, чтобы получить аудиосигнал в спектральной области.

19. Устройство по п. 16, в котором интерфейс (100) ввода выполнен с возможностью приема дополнительных метаданных аудиообъекта для аудиообъекта, и

при этом блок (220) синтеза DirAC выполнен с возможностью выборочной манипуляции дополнительными метаданными аудиообъекта или данными объекта, которые относятся к метаданным, чтобы выполнять направленную фильтрацию на основании данных объекта, включенных в метаданные объекта, или на основании заданной пользователем информации о направлении, или

при этом блок (220) синтеза DirAC выполнен с возможностью выполнения в спектральной области нуль-фазовой функции (226) усиления, причем нуль-фазовая функция усиления зависит от направления аудиообъекта, при этом направление содержится в битовом потоке, если направления объектов передаются в качестве добавочной информации, или при этом направление принимается от интерфейса пользователя.

20. Способ выполнения синтеза множества аудиосцен, содержащий этапы, на которых:

принимают первое описание DirAC первой сцены и принимают второе описание DirAC второй сцены и один или более транспортных каналов; и

синтезируют множество аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и

осуществляют спектрально-временное преобразование аудиосигнала в спектральной области во временную область.

21. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 20.

22. Преобразователь аудиоданных, содержащий:

интерфейс (100) ввода для приема описания объекта для аудиообъекта с метаданными аудиообъекта;

преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных аудиообъекта в метаданные DirAC; и

интерфейс (300) вывода для передачи или сохранения метаданных DirAC.

23. Преобразователь аудиоданных по п. 22, в котором метаданные аудиообъекта имеют позицию объекта и при этом метаданные DirAC имеют направление поступления относительно опорной позиции.

24. Преобразователь аудиоданных по п. 22,

при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью применения анализа DirAC к данным давления/скорости.

25. Преобразователь аудиоданных по п. 22,

в котором интерфейс (100) ввода выполнен с возможностью приема множества описаний аудиообъектов,

при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования каждого описания метаданных объекта в отдельное описание данных DirAC, и

при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC для получения объединенного описания DirAC в качестве метаданных DirAC.

26. Преобразователь аудиоданных по п. 25, в котором преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC, причем каждое описание метаданных содержит метаданные направления поступления или метаданные направления поступления и метаданные диффузности, путем отдельного объединения метаданных направления поступления из разных описаний метаданных путем взвешенного сложения, при этом взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или путем объединения метаданных диффузности из разных описаний метаданных DirAC путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.

27. Преобразователь аудиоданных по п. 22,

в котором интерфейс (100) ввода выполнен с возможностью приема для каждого аудиообъекта сигнала формы волны аудиообъекта в дополнение к этим метаданным объекта,

при этом преобразователь аудиоданных дополнительно содержит устройство (163) понижающего микширования для понижающего микширования сигналов формы волны аудиообъектов в один или более транспортных каналов, и

при этом интерфейс (300) вывода выполнен с возможностью передачи или сохранения одного или более транспортных каналов в ассоциации с метаданными DirAC.

28. Способ выполнения преобразования аудиоданных, содержащий этапы, на которых:

принимают описание объекта для аудиообъекта с метаданными аудиообъекта;

преобразуют метаданные аудиообъекта в метаданные DirAC; и

передают или сохраняют метаданные DirAC.

29. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 28.

30. Кодер аудиосцены, содержащий:

интерфейс (100) ввода для приема описания DirAC аудиосцены с метаданными DirAC и для приема сигнала объекта с метаданными объекта;

генератор (400) метаданных для формирования объединенного описания метаданных, содержащего метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, а метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.

31. Кодер аудиосцены по п. 30, в котором интерфейс (100) ввода выполнен с возможностью приема транспортного сигнала, ассоциированного с описанием DirAC аудиосцены, и при этом интерфейс (100) ввода выполнен с возможностью приема сигнала формы волны объекта, ассоциированного с сигналом объекта, и

при этом кодер аудиосцены дополнительно содержит кодер (170) транспортного сигнала для кодирования транспортного сигнала и сигнала формы волны объекта.

32. Кодер аудиосцены по п. 30,

при этом генератор (400) метаданных содержит преобразователь (150, 125, 126, 148) метаданных, который описан в любом из пп. 12-27.

33. Кодер аудиосцены по п. 30, в котором генератор (400) метаданных выполнен с возможностью формирования, для метаданных объекта, одного широкополосного направления на каждую единицу времени, и при этом генератор метаданных выполнен с возможностью актуализации одного широкополосного направления на каждую единицу времени менее часто, чем метаданных DirAC.

34. Способ кодирования аудиосцены, содержащий этапы, на которых:

принимают описание DirAC аудиосцены с метаданными DirAC и принимают сигнал объекта с метаданными объекта; и

формируют объединенное описание метаданных, содержащее метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, и при этом метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.

35. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 34.

36. Устройство для выполнения синтеза аудиоданных, содержащее:

интерфейс (100) ввода для приема описания DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или добавочную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, или информацию о позиции для многоканального сигнала в качестве добавочной информации или от интерфейса пользователя;

блок (500) манипулирования для манипулирования описанием DirAC одного или более аудиообъектов, многоканального сигнала, сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка для получения описания DirAC после манипуляции; и

блок (220, 240) синтеза DirAC для синтеза описания DirAC после манипуляции для получения синтезированных аудиоданных.

37. Устройство по п. 36,

при этом блок (220, 240) синтеза DirAC содержит рендерер (222) DirAC для выполнения рендеринга DirAC с использованием описания DirAC после манипуляции для получения аудиосигнала в спектральной области; и

38. Устройство по п. 36, в котором блок (500) манипулирования выполнен с возможностью выполнения зависимой от позиции операции взвешивания перед рендерингом DirAC.

39. Устройство по п. 36, в котором блок (220, 240) синтеза DirAC выполнен с возможностью вывода множества объектов или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или многоканального сигнала, и при этом блок (220, 240) синтеза DirAC выполнен с возможностью использования отдельного спектрально-временного преобразователя (240) для каждого объекта или каждого компонента сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или для каждого канала многоканального сигнала.

40. Способ выполнения синтеза аудиоданных, содержащий этапы, на которых:

принимают описание DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или многоканального сигнала или дополнительную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка в качестве добавочной информации или от интерфейса пользователя;

осуществляют манипулирование описанием DirAC для получения описания DirAC после манипуляции; и

синтезируют описание DirAC после манипуляции для получения синтезированных аудиоданных.

41. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 40.