RU2020115048A - УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ - Google Patents
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ Download PDFInfo
- Publication number
- RU2020115048A RU2020115048A RU2020115048A RU2020115048A RU2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A
- Authority
- RU
- Russia
- Prior art keywords
- dirac
- metadata
- format
- audio
- description
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 13
- 238000004590 computer program Methods 0.000 title claims 6
- 230000003595 spectral effect Effects 0.000 claims 13
- 230000015572 biosynthetic process Effects 0.000 claims 11
- 238000003786 synthesis reaction Methods 0.000 claims 11
- 230000005236 sound signal Effects 0.000 claims 9
- 238000004458 analytical method Methods 0.000 claims 3
- 230000002194 synthesizing effect Effects 0.000 claims 3
- 239000013598 vector Substances 0.000 claims 3
- 230000003321 amplification Effects 0.000 claims 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims 2
- 238000009877 rendering Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 238000004091 panning Methods 0.000 claims 1
- 230000003068 static effect Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000005303 weighing Methods 0.000 claims 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/024—Positioning of loudspeaker enclosures for spatial sound reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Claims (121)
1. Устройство для формирования описания объединенной аудиосцены, содержащее:
интерфейс (100) ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразователь (120) форматов для преобразования первого описания в общий формат и для преобразования второго описания в общий формат, когда второй формат отличается от общего формата; и
объединитель (140) форматов для объединения первого описания в общем формате и второго описания в общем формате для получения объединенной аудиосцены.
2. Устройство по п. 1
при этом первый формат и второй формат выбираются из группы форматов, содержащей формат Ambisonics (Амбисоник) первого порядка, формат Ambisonics высокого порядка, общий формат, формат DirAC, формат аудиообъекта и многоканальный формат.
3. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов B-формата и преобразования второго описания во второе представление сигналов B-формата, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов B-формата путем отдельного объединения отдельных компонентов первого и второго представления сигналов B-формата.
4. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов давления/скорости и преобразования второго описания во второе представление сигналов давления/скорости, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов давления/скорости путем отдельного объединения отдельных компонентов представлений сигналов давления/скорости для получения объединенного представления сигналов давления/скорости.
5. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление параметров DirAC и преобразования второго описания во второе представление параметров DirAC, когда второе описание отличается от представления параметров DirAC, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представлений параметров DirAC путем отдельного объединения отдельных компонентов первого и второго представления параметров DirAC для получения объединенного представления параметров DirAC для объединенной аудиосцены.
6. Устройство по п. 5,
в котором объединитель (140) форматов выполнен с возможностью формирования значений направления поступления для частотно-временных мозаичных фрагментов или значений направления поступления и значений диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
7. Устройство по п. 1,
дополнительно содержащее анализатор (180) DirAC для анализа объединенной аудиосцены, чтобы извлекать параметры DirAC для объединенной аудиосцены,
при этом параметры DirAC содержат значения направления поступления для частотно-временных мозаичных фрагментов или значения направления поступления и значения диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
8. Устройство по п. 1,
дополнительно содержащее генератор (160) транспортного канала для формирования сигнала транспортного канала из объединенной аудиосцены или из первой сцены и второй сцены, и
кодер (170) транспортного канала для базового кодирования сигнала транспортного канала, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в формате Ambisonics первого порядка или Ambisonics более высокого порядка с использованием формирователя диаграммы направленности, направленного в левую позицию или правую позицию, соответственно, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в многоканальном представлении путем понижающего микширования трех или более каналов многоканального представления, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в представлении аудиообъекта путем панорамирования каждого объекта с использованием позиции объекта или путем понижающего микширования объектов в стереофоническое понижающее микширование с использованием информации, указывающей, какой объект располагается в каком стереоканале, или
в котором генератор (160) транспортного канала выполнен с возможностью сложения только левого канала стереосигнала с левым транспортным каналом понижающего микширования и сложения только правого канала стереосигнала для получения правого транспортного канала, или
в котором общий формат является B-форматом и при этом генератор (160) транспортного канала выполнен с возможностью обработки объединенного представления B-формата для извлечения сигнала транспортного канала, при этом обработка содержит выполнение операции формирования диаграммы направленности или извлечение подмножества компонентов сигнала B-формата, таких как всенаправленный компонент, в качестве транспортного моноканала, или
при этом обработка содержит формирование диаграммы направленности с использованием всенаправленного сигнала и компонента Y с противоположными знаками B-формата для вычисления левого и правого каналов, или
при этом обработка содержит операцию формирования диаграммы направленности с использованием компонентов B-формата и заданного азимутального угла и заданного угла возвышения, или
в котором генератор (160) транспортного канала выполнен с возможностью предоставления сигналов B-формата объединенной аудиосцены кодеру транспортного канала, при этом любые пространственные метаданные не включаются в вывод объединенной аудиосцены посредством объединителя (140) форматов.
9. Устройство по п. 1, дополнительно содержащее:
кодер (190) метаданных
для кодирования метаданных DirAC, описанных в объединенной аудиосцене, для получения кодированных метаданных DirAC, или
для кодирования метаданных DirAC, извлеченных из первой сцены, для получения первых кодированных метаданных DirAC и для кодирования метаданных DirAC, извлеченных из второй сцены, для получения вторых кодированных метаданных DirAC.
10. Устройство по п. 1, дополнительно содержащее:
интерфейс (200) вывода для формирования кодированного выходного сигнала, представляющего собой объединенную аудиосцену, причем выходной сигнал содержит кодированные метаданные DirAC и один или более кодированных транспортных каналов.
11. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования формата Ambisonics высокого порядка или Ambisonics первого порядка в B-формат, при этом формат Ambisonics высокого порядка усекается перед преобразованием в B-формат, или
в котором преобразователь (120) форматов выполнен с возможностью проецирования объекта или канала на сферические гармоники в опорной позиции для получения спроецированных сигналов, и при этом объединитель (140) форматов выполнен с возможностью объединения сигналов проекции для получения коэффициентов B-формата, при этом объект или канал располагается в пространстве в указанной позиции и имеет необязательное отдельное расстояние от опорной позиции, или
в котором преобразователь (120) форматов выполнен с возможностью выполнения анализа DirAC, содержащего частотно-временной анализ компонентов B-формата и определение векторов давления и скорости, и при этом объединитель (140) форматов выполнен с возможностью объединения разных векторов давления/скорости, и при этом объединитель (140) форматов дополнительно содержит анализатор DirAC для извлечения метаданных DirAC из объединенных данных давления/скорости, или
в котором преобразователь (120) форматов выполнен с возможностью извлечения параметров DirAC из метаданных объекта формата аудиообъекта в качестве первого или второго формата, при этом вектор давления является сигналом формы волны объекта и направление извлекается из позиции объекта в пространстве, или диффузность непосредственно задается в метаданных объекта или устанавливается в значение по умолчанию, такое как значение 0, или
в котором преобразователь (120) форматов выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и объединитель (140) форматов выполнен с возможностью объединения данных давления/скорости с данными давления/скорости, извлеченными из другого описания одного или более других аудиообъектов, или
в котором преобразователь (120) форматов выполнен с возможностью непосредственного извлечения параметров DirAC, и при этом объединитель (140) форматов выполнен с возможностью объединения параметров DirAC для получения объединенной аудиосцены.
12. Устройство по п. 1, в котором преобразователь (120) форматов содержит:
анализатор (180) DirAC для формата ввода Ambisonics первого порядка или Ambisonics высокого порядка или формата многоканального сигнала;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных объекта в метаданные DirAC или для преобразования многоканального сигнала с независимой от времени позицией в метаданные DirAC; и
объединитель (144) метаданных для объединения отдельных потоков метаданных DirAC или объединения метаданных направления поступления из нескольких потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или для объединения метаданных диффузности из разных потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или
при этом объединитель (144) метаданных выполнен с возможностью вычисления для временного/частотного бина первого описания первой сцены значения энергии и значения направления поступления, и вычисления для временного/частотного бина второго описания второй сцены значения энергии и значения направления поступления, и при этом объединитель (140) форматов выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного значения направления поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
13. Устройство по п. 1, дополнительно содержащее интерфейс (200, 300) вывода для добавления в объединенный формат отдельного описания объекта для аудиообъекта, причем описание объекта содержит по меньшей мере одно из направления, расстояния, диффузности или любого другого атрибута объекта, при этом объект имеет одно направление по всем полосам частот и является либо статическим, либо движущимся медленнее порогового значения скорости.
14. Способ формирования описания объединенной аудиосцены, содержащий этапы, на которых:
принимают первое описание первой сцены в первом формате и принимают второе описание второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразуют первое описание в общий формат и преобразуют второе описание в общий формат, когда второй формат отличается от общего формата; и
объединяют первое описание в общем формате и второе описание в общем формате для получения объединенной аудиосцены.
15. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 14.
16. Устройство для выполнения синтеза множества аудиосцен, содержащее:
интерфейс (100) ввода для приема первого описания DirAC первой сцены и для приема второго описания DirAC второй сцены и одного или более транспортных каналов; и
блок (220) синтеза DirAC для синтеза множества аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
17. Устройство по п. 16, в котором блок синтеза DirAC содержит:
объединитель (221) сцен для объединения первого описания DirAC и второго описания DirAC в объединенное описание DirAC; и
рендерер (222) DirAC для рендеринга объединенного описания DirAC с использованием одного или более транспортных каналов для получения аудиосигнала в спектральной области, или
при этом объединитель (221) сцен выполнен с возможностью вычисления, для временного/частотного бина первого описания первой сцены, значения энергии и значения направления поступления, и вычисления, для временного/частотного бина второго описания второй сцены, значения энергии и значения направления поступления, и при этом объединитель (221) сцен выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного направления значения поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
18. Устройство по п. 16,
в котором интерфейс (100) ввода выполнен с возможностью приема для описания DirAC отдельного транспортного канала и отдельных метаданных DirAC,
при этом блок (220) синтеза DirAC выполнен с возможностью рендеринга каждого описания с использованием транспортного канала и метаданных для соответствующего описания DirAC, чтобы получить аудиосигнал в спектральной области для каждого описания, и объединения аудиосигнала в спектральной области для каждого описания, чтобы получить аудиосигнал в спектральной области.
19. Устройство по п. 16, в котором интерфейс (100) ввода выполнен с возможностью приема дополнительных метаданных аудиообъекта для аудиообъекта, и
при этом блок (220) синтеза DirAC выполнен с возможностью выборочной манипуляции дополнительными метаданными аудиообъекта или данными объекта, которые относятся к метаданным, чтобы выполнять направленную фильтрацию на основании данных объекта, включенных в метаданные объекта, или на основании заданной пользователем информации о направлении, или
при этом блок (220) синтеза DirAC выполнен с возможностью выполнения в спектральной области нуль-фазовой функции (226) усиления, причем нуль-фазовая функция усиления зависит от направления аудиообъекта, при этом направление содержится в битовом потоке, если направления объектов передаются в качестве добавочной информации, или при этом направление принимается от интерфейса пользователя.
20. Способ выполнения синтеза множества аудиосцен, содержащий этапы, на которых:
принимают первое описание DirAC первой сцены и принимают второе описание DirAC второй сцены и один или более транспортных каналов; и
синтезируют множество аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
осуществляют спектрально-временное преобразование аудиосигнала в спектральной области во временную область.
21. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 20.
22. Преобразователь аудиоданных, содержащий:
интерфейс (100) ввода для приема описания объекта для аудиообъекта с метаданными аудиообъекта;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных аудиообъекта в метаданные DirAC; и
интерфейс (300) вывода для передачи или сохранения метаданных DirAC.
23. Преобразователь аудиоданных по п. 22, в котором метаданные аудиообъекта имеют позицию объекта и при этом метаданные DirAC имеют направление поступления относительно опорной позиции.
24. Преобразователь аудиоданных по п. 22,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью применения анализа DirAC к данным давления/скорости.
25. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема множества описаний аудиообъектов,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования каждого описания метаданных объекта в отдельное описание данных DirAC, и
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC для получения объединенного описания DirAC в качестве метаданных DirAC.
26. Преобразователь аудиоданных по п. 25, в котором преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC, причем каждое описание метаданных содержит метаданные направления поступления или метаданные направления поступления и метаданные диффузности, путем отдельного объединения метаданных направления поступления из разных описаний метаданных путем взвешенного сложения, при этом взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или путем объединения метаданных диффузности из разных описаний метаданных DirAC путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
27. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема для каждого аудиообъекта сигнала формы волны аудиообъекта в дополнение к этим метаданным объекта,
при этом преобразователь аудиоданных дополнительно содержит устройство (163) понижающего микширования для понижающего микширования сигналов формы волны аудиообъектов в один или более транспортных каналов, и
при этом интерфейс (300) вывода выполнен с возможностью передачи или сохранения одного или более транспортных каналов в ассоциации с метаданными DirAC.
28. Способ выполнения преобразования аудиоданных, содержащий этапы, на которых:
принимают описание объекта для аудиообъекта с метаданными аудиообъекта;
преобразуют метаданные аудиообъекта в метаданные DirAC; и
передают или сохраняют метаданные DirAC.
29. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 28.
30. Кодер аудиосцены, содержащий:
интерфейс (100) ввода для приема описания DirAC аудиосцены с метаданными DirAC и для приема сигнала объекта с метаданными объекта;
генератор (400) метаданных для формирования объединенного описания метаданных, содержащего метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, а метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.
31. Кодер аудиосцены по п. 30, в котором интерфейс (100) ввода выполнен с возможностью приема транспортного сигнала, ассоциированного с описанием DirAC аудиосцены, и при этом интерфейс (100) ввода выполнен с возможностью приема сигнала формы волны объекта, ассоциированного с сигналом объекта, и
при этом кодер аудиосцены дополнительно содержит кодер (170) транспортного сигнала для кодирования транспортного сигнала и сигнала формы волны объекта.
32. Кодер аудиосцены по п. 30,
при этом генератор (400) метаданных содержит преобразователь (150, 125, 126, 148) метаданных, который описан в любом из пп. 12-27.
33. Кодер аудиосцены по п. 30, в котором генератор (400) метаданных выполнен с возможностью формирования, для метаданных объекта, одного широкополосного направления на каждую единицу времени, и при этом генератор метаданных выполнен с возможностью актуализации одного широкополосного направления на каждую единицу времени менее часто, чем метаданных DirAC.
34. Способ кодирования аудиосцены, содержащий этапы, на которых:
принимают описание DirAC аудиосцены с метаданными DirAC и принимают сигнал объекта с метаданными объекта; и
формируют объединенное описание метаданных, содержащее метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, и при этом метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.
35. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 34.
36. Устройство для выполнения синтеза аудиоданных, содержащее:
интерфейс (100) ввода для приема описания DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или добавочную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, или информацию о позиции для многоканального сигнала в качестве добавочной информации или от интерфейса пользователя;
блок (500) манипулирования для манипулирования описанием DirAC одного или более аудиообъектов, многоканального сигнала, сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка для получения описания DirAC после манипуляции; и
блок (220, 240) синтеза DirAC для синтеза описания DirAC после манипуляции для получения синтезированных аудиоданных.
37. Устройство по п. 36,
при этом блок (220, 240) синтеза DirAC содержит рендерер (222) DirAC для выполнения рендеринга DirAC с использованием описания DirAC после манипуляции для получения аудиосигнала в спектральной области; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
38. Устройство по п. 36, в котором блок (500) манипулирования выполнен с возможностью выполнения зависимой от позиции операции взвешивания перед рендерингом DirAC.
39. Устройство по п. 36, в котором блок (220, 240) синтеза DirAC выполнен с возможностью вывода множества объектов или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или многоканального сигнала, и при этом блок (220, 240) синтеза DirAC выполнен с возможностью использования отдельного спектрально-временного преобразователя (240) для каждого объекта или каждого компонента сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или для каждого канала многоканального сигнала.
40. Способ выполнения синтеза аудиоданных, содержащий этапы, на которых:
принимают описание DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или многоканального сигнала или дополнительную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка в качестве добавочной информации или от интерфейса пользователя;
осуществляют манипулирование описанием DirAC для получения описания DirAC после манипуляции; и
синтезируют описание DirAC после манипуляции для получения синтезированных аудиоданных.
41. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 40.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17194816 | 2017-10-04 | ||
EP17194816.9 | 2017-10-04 | ||
PCT/EP2018/076641 WO2019068638A1 (en) | 2017-10-04 | 2018-10-01 | APPARATUS, METHOD AND COMPUTER PROGRAM FOR CODING, DECODING, SCENE PROCESSING AND OTHER PROCEDURES RELATED TO DIRAC-BASED SPATIAL AUDIO CODING |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020115048A true RU2020115048A (ru) | 2021-11-08 |
RU2020115048A3 RU2020115048A3 (ru) | 2021-11-08 |
RU2759160C2 RU2759160C2 (ru) | 2021-11-09 |
Family
ID=60185972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020115048A RU2759160C2 (ru) | 2017-10-04 | 2018-10-01 | УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ |
Country Status (18)
Country | Link |
---|---|
US (3) | US11368790B2 (ru) |
EP (2) | EP3692523B1 (ru) |
JP (2) | JP7297740B2 (ru) |
KR (2) | KR102468780B1 (ru) |
CN (2) | CN111630592B (ru) |
AR (2) | AR117384A1 (ru) |
AU (2) | AU2018344830B2 (ru) |
BR (1) | BR112020007486A2 (ru) |
CA (4) | CA3076703C (ru) |
ES (1) | ES2907377T3 (ru) |
MX (1) | MX2020003506A (ru) |
PL (1) | PL3692523T3 (ru) |
PT (1) | PT3692523T (ru) |
RU (1) | RU2759160C2 (ru) |
SG (1) | SG11202003125SA (ru) |
TW (2) | TWI700687B (ru) |
WO (1) | WO2019068638A1 (ru) |
ZA (1) | ZA202001726B (ru) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7321170B2 (ja) * | 2018-04-16 | 2023-08-04 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 方向性音源のエンコードおよびデコードのための方法、装置およびシステム |
CN111837182A (zh) * | 2018-07-02 | 2020-10-27 | 杜比实验室特许公司 | 用于产生或解码包括沉浸式音频信号的位流的方法及装置 |
US11765536B2 (en) | 2018-11-13 | 2023-09-19 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
BR112021010956A2 (pt) * | 2018-12-07 | 2021-08-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para gerar uma descrição de campo de som |
US11158335B1 (en) * | 2019-03-28 | 2021-10-26 | Amazon Technologies, Inc. | Audio beam selection |
JP7469298B2 (ja) | 2019-04-24 | 2024-04-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 到来方向推定装置、システム、及び、到来方向推定方法 |
GB2587335A (en) * | 2019-09-17 | 2021-03-31 | Nokia Technologies Oy | Direction estimation enhancement for parametric spatial audio capture using broadband estimates |
US11430451B2 (en) * | 2019-09-26 | 2022-08-30 | Apple Inc. | Layered coding of audio with discrete objects |
KR20220088864A (ko) * | 2019-10-30 | 2022-06-28 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 몰입형 음성 및 오디오 서비스에서 비트레이트 분배 |
EP4229631A2 (en) * | 2020-10-13 | 2023-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects |
KR20230088402A (ko) | 2020-10-13 | 2023-06-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 복수의 오디오 객체를 인코딩하는 장치 및 방법 또는 둘 이상의 관련 오디오 객체를 이용하여 디코딩하는 장치 및 방법(Apparatus and method for encoding a plurality of audio objects or appratus and method for decoding using two or more relevant audio objects) |
TWI816071B (zh) * | 2020-12-09 | 2023-09-21 | 宏正自動科技股份有限公司 | 音訊轉換裝置及音訊處理方法 |
GB2608406A (en) * | 2021-06-30 | 2023-01-04 | Nokia Technologies Oy | Creating spatial audio stream from audio objects with spatial extent |
WO2024069796A1 (ja) * | 2022-09-28 | 2024-04-04 | 三菱電機株式会社 | 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233562B1 (en) * | 1996-12-09 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Audio decoding device and signal processing device for decoding multi-channel signals with reduced memory requirements |
US8872979B2 (en) | 2002-05-21 | 2014-10-28 | Avaya Inc. | Combined-media scene tracking for audio-video summarization |
TW200742359A (en) | 2006-04-28 | 2007-11-01 | Compal Electronics Inc | Internet communication system |
US9014377B2 (en) * | 2006-05-17 | 2015-04-21 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
US20080004729A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
US8290167B2 (en) * | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
WO2009109217A1 (en) * | 2008-03-03 | 2009-09-11 | Nokia Corporation | Apparatus for capturing and rendering a plurality of audio channels |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
PL2154677T3 (pl) * | 2008-08-13 | 2013-12-31 | Fraunhofer Ges Forschung | Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio |
US8504184B2 (en) * | 2009-02-04 | 2013-08-06 | Panasonic Corporation | Combination device, telecommunication system, and combining method |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
US20130003998A1 (en) * | 2010-02-26 | 2013-01-03 | Nokia Corporation | Modifying Spatial Image of a Plurality of Audio Signals |
DE102010030534A1 (de) * | 2010-06-25 | 2011-12-29 | Iosono Gmbh | Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion |
EP2448289A1 (en) * | 2010-10-28 | 2012-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for deriving a directional information and computer program product |
EP2464146A1 (en) | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
EP2600343A1 (en) | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
WO2013156818A1 (en) * | 2012-04-19 | 2013-10-24 | Nokia Corporation | An audio scene apparatus |
US9190065B2 (en) * | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
CN103236255A (zh) * | 2013-04-03 | 2013-08-07 | 广西环球音乐图书有限公司 | 音频文件转化midi文件 |
DE102013105375A1 (de) | 2013-05-24 | 2014-11-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals |
US9847088B2 (en) * | 2014-08-29 | 2017-12-19 | Qualcomm Incorporated | Intermediate compression for higher order ambisonic audio data |
KR101993348B1 (ko) * | 2014-09-24 | 2019-06-26 | 한국전자통신연구원 | 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체 |
EP3251116A4 (en) * | 2015-01-30 | 2018-07-25 | DTS, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
CN104768053A (zh) | 2015-04-15 | 2015-07-08 | 冯山泉 | 一种基于流分解和流重组的格式转换方法及系统 |
-
2018
- 2018-10-01 ES ES18779381T patent/ES2907377T3/es active Active
- 2018-10-01 CA CA3076703A patent/CA3076703C/en active Active
- 2018-10-01 AU AU2018344830A patent/AU2018344830B2/en active Active
- 2018-10-01 SG SG11202003125SA patent/SG11202003125SA/en unknown
- 2018-10-01 CN CN201880077928.6A patent/CN111630592B/zh active Active
- 2018-10-01 EP EP18779381.5A patent/EP3692523B1/en active Active
- 2018-10-01 MX MX2020003506A patent/MX2020003506A/es unknown
- 2018-10-01 JP JP2020519284A patent/JP7297740B2/ja active Active
- 2018-10-01 CA CA3219566A patent/CA3219566A1/en active Pending
- 2018-10-01 WO PCT/EP2018/076641 patent/WO2019068638A1/en unknown
- 2018-10-01 BR BR112020007486-1A patent/BR112020007486A2/pt unknown
- 2018-10-01 KR KR1020207012249A patent/KR102468780B1/ko active IP Right Grant
- 2018-10-01 PT PT187793815T patent/PT3692523T/pt unknown
- 2018-10-01 CN CN202311301426.6A patent/CN117395593A/zh active Pending
- 2018-10-01 KR KR1020227032462A patent/KR20220133311A/ko active IP Right Grant
- 2018-10-01 RU RU2020115048A patent/RU2759160C2/ru active
- 2018-10-01 CA CA3219540A patent/CA3219540A1/en active Pending
- 2018-10-01 PL PL18779381T patent/PL3692523T3/pl unknown
- 2018-10-01 CA CA3134343A patent/CA3134343A1/en active Pending
- 2018-10-01 EP EP21208008.9A patent/EP3975176A3/en active Pending
- 2018-10-03 TW TW107134948A patent/TWI700687B/zh active
- 2018-10-03 TW TW108141539A patent/TWI834760B/zh active
- 2018-10-04 AR ARP180102867A patent/AR117384A1/es active IP Right Grant
-
2020
- 2020-03-17 US US16/821,069 patent/US11368790B2/en active Active
- 2020-03-18 ZA ZA2020/01726A patent/ZA202001726B/en unknown
-
2021
- 2021-12-23 AU AU2021290361A patent/AU2021290361B2/en active Active
-
2022
- 2022-01-26 US US17/585,169 patent/US20220150635A1/en active Pending
- 2022-01-26 US US17/585,124 patent/US11729554B2/en active Active
- 2022-03-21 AR ARP220100655A patent/AR125562A2/es unknown
-
2023
- 2023-06-14 JP JP2023098016A patent/JP2023126225A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2020115048A (ru) | УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ | |
US9257128B2 (en) | Apparatus and method for coding and decoding multi object audio signal with multi channel | |
RU2537044C2 (ru) | Устройство для формирования выходного пространственного многоканального аудио сигнала | |
CN107623894B (zh) | 渲染音频信号的方法 | |
JP6239145B2 (ja) | 幾何学的な距離定義を使用してオーディオレンダリングする装置および方法 | |
CN102883257B (zh) | 用于编码多对象音频信号的设备和方法 | |
US11832080B2 (en) | Spatial audio parameters and associated spatial audio playback | |
CN101529501B (zh) | 音频对象编码器和音频对象编码方法 | |
US8817991B2 (en) | Advanced encoding of multi-channel digital audio signals | |
CN107017002A (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
EP4243016A2 (en) | Decoding device and decoding method, and program | |
EP3732678B1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
RU2008114359A (ru) | Аудиокодирование | |
US11328735B2 (en) | Determination of spatial audio parameter encoding and associated decoding | |
CN101529504A (zh) | 多通道参数转换的装置和方法 | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
TWI711034B (zh) | 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體 | |
Hold et al. | Compression of higher-order ambisonic signals using directional audio coding | |
CN108028988B (zh) | 处理低复杂度格式转换的内部声道的设备和方法 | |
CN118251722A (zh) | 空间音频参数解码 |