RU2020115048A - УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ - Google Patents

УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ Download PDF

Info

Publication number
RU2020115048A
RU2020115048A RU2020115048A RU2020115048A RU2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A RU 2020115048 A RU2020115048 A RU 2020115048A
Authority
RU
Russia
Prior art keywords
dirac
metadata
format
audio
description
Prior art date
Application number
RU2020115048A
Other languages
English (en)
Other versions
RU2020115048A3 (ru
RU2759160C2 (ru
Inventor
Гийом ФУКС
Юрген ХЕРРЕ
Фабиан КЮХ
Штефан ДЁЛА
Маркус МУЛЬТРУС
Оливер ТИРГАРТ
Оливер ВЮББОЛЬТ
Флорин ГИДО
Штефан БАЙЕР
Вольфганг ЕГЕРС
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2020115048A publication Critical patent/RU2020115048A/ru
Publication of RU2020115048A3 publication Critical patent/RU2020115048A3/ru
Application granted granted Critical
Publication of RU2759160C2 publication Critical patent/RU2759160C2/ru

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Claims (121)

1. Устройство для формирования описания объединенной аудиосцены, содержащее:
интерфейс (100) ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразователь (120) форматов для преобразования первого описания в общий формат и для преобразования второго описания в общий формат, когда второй формат отличается от общего формата; и
объединитель (140) форматов для объединения первого описания в общем формате и второго описания в общем формате для получения объединенной аудиосцены.
2. Устройство по п. 1
при этом первый формат и второй формат выбираются из группы форматов, содержащей формат Ambisonics (Амбисоник) первого порядка, формат Ambisonics высокого порядка, общий формат, формат DirAC, формат аудиообъекта и многоканальный формат.
3. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов B-формата и преобразования второго описания во второе представление сигналов B-формата, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов B-формата путем отдельного объединения отдельных компонентов первого и второго представления сигналов B-формата.
4. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов давления/скорости и преобразования второго описания во второе представление сигналов давления/скорости, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представления сигналов давления/скорости путем отдельного объединения отдельных компонентов представлений сигналов давления/скорости для получения объединенного представления сигналов давления/скорости.
5. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление параметров DirAC и преобразования второго описания во второе представление параметров DirAC, когда второе описание отличается от представления параметров DirAC, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого и второго представлений параметров DirAC путем отдельного объединения отдельных компонентов первого и второго представления параметров DirAC для получения объединенного представления параметров DirAC для объединенной аудиосцены.
6. Устройство по п. 5,
в котором объединитель (140) форматов выполнен с возможностью формирования значений направления поступления для частотно-временных мозаичных фрагментов или значений направления поступления и значений диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
7. Устройство по п. 1,
дополнительно содержащее анализатор (180) DirAC для анализа объединенной аудиосцены, чтобы извлекать параметры DirAC для объединенной аудиосцены,
при этом параметры DirAC содержат значения направления поступления для частотно-временных мозаичных фрагментов или значения направления поступления и значения диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
8. Устройство по п. 1,
дополнительно содержащее генератор (160) транспортного канала для формирования сигнала транспортного канала из объединенной аудиосцены или из первой сцены и второй сцены, и
кодер (170) транспортного канала для базового кодирования сигнала транспортного канала, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в формате Ambisonics первого порядка или Ambisonics более высокого порядка с использованием формирователя диаграммы направленности, направленного в левую позицию или правую позицию, соответственно, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в многоканальном представлении путем понижающего микширования трех или более каналов многоканального представления, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в представлении аудиообъекта путем панорамирования каждого объекта с использованием позиции объекта или путем понижающего микширования объектов в стереофоническое понижающее микширование с использованием информации, указывающей, какой объект располагается в каком стереоканале, или
в котором генератор (160) транспортного канала выполнен с возможностью сложения только левого канала стереосигнала с левым транспортным каналом понижающего микширования и сложения только правого канала стереосигнала для получения правого транспортного канала, или
в котором общий формат является B-форматом и при этом генератор (160) транспортного канала выполнен с возможностью обработки объединенного представления B-формата для извлечения сигнала транспортного канала, при этом обработка содержит выполнение операции формирования диаграммы направленности или извлечение подмножества компонентов сигнала B-формата, таких как всенаправленный компонент, в качестве транспортного моноканала, или
при этом обработка содержит формирование диаграммы направленности с использованием всенаправленного сигнала и компонента Y с противоположными знаками B-формата для вычисления левого и правого каналов, или
при этом обработка содержит операцию формирования диаграммы направленности с использованием компонентов B-формата и заданного азимутального угла и заданного угла возвышения, или
в котором генератор (160) транспортного канала выполнен с возможностью предоставления сигналов B-формата объединенной аудиосцены кодеру транспортного канала, при этом любые пространственные метаданные не включаются в вывод объединенной аудиосцены посредством объединителя (140) форматов.
9. Устройство по п. 1, дополнительно содержащее:
кодер (190) метаданных
для кодирования метаданных DirAC, описанных в объединенной аудиосцене, для получения кодированных метаданных DirAC, или
для кодирования метаданных DirAC, извлеченных из первой сцены, для получения первых кодированных метаданных DirAC и для кодирования метаданных DirAC, извлеченных из второй сцены, для получения вторых кодированных метаданных DirAC.
10. Устройство по п. 1, дополнительно содержащее:
интерфейс (200) вывода для формирования кодированного выходного сигнала, представляющего собой объединенную аудиосцену, причем выходной сигнал содержит кодированные метаданные DirAC и один или более кодированных транспортных каналов.
11. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования формата Ambisonics высокого порядка или Ambisonics первого порядка в B-формат, при этом формат Ambisonics высокого порядка усекается перед преобразованием в B-формат, или
в котором преобразователь (120) форматов выполнен с возможностью проецирования объекта или канала на сферические гармоники в опорной позиции для получения спроецированных сигналов, и при этом объединитель (140) форматов выполнен с возможностью объединения сигналов проекции для получения коэффициентов B-формата, при этом объект или канал располагается в пространстве в указанной позиции и имеет необязательное отдельное расстояние от опорной позиции, или
в котором преобразователь (120) форматов выполнен с возможностью выполнения анализа DirAC, содержащего частотно-временной анализ компонентов B-формата и определение векторов давления и скорости, и при этом объединитель (140) форматов выполнен с возможностью объединения разных векторов давления/скорости, и при этом объединитель (140) форматов дополнительно содержит анализатор DirAC для извлечения метаданных DirAC из объединенных данных давления/скорости, или
в котором преобразователь (120) форматов выполнен с возможностью извлечения параметров DirAC из метаданных объекта формата аудиообъекта в качестве первого или второго формата, при этом вектор давления является сигналом формы волны объекта и направление извлекается из позиции объекта в пространстве, или диффузность непосредственно задается в метаданных объекта или устанавливается в значение по умолчанию, такое как значение 0, или
в котором преобразователь (120) форматов выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и объединитель (140) форматов выполнен с возможностью объединения данных давления/скорости с данными давления/скорости, извлеченными из другого описания одного или более других аудиообъектов, или
в котором преобразователь (120) форматов выполнен с возможностью непосредственного извлечения параметров DirAC, и при этом объединитель (140) форматов выполнен с возможностью объединения параметров DirAC для получения объединенной аудиосцены.
12. Устройство по п. 1, в котором преобразователь (120) форматов содержит:
анализатор (180) DirAC для формата ввода Ambisonics первого порядка или Ambisonics высокого порядка или формата многоканального сигнала;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных объекта в метаданные DirAC или для преобразования многоканального сигнала с независимой от времени позицией в метаданные DirAC; и
объединитель (144) метаданных для объединения отдельных потоков метаданных DirAC или объединения метаданных направления поступления из нескольких потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или для объединения метаданных диффузности из разных потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или
при этом объединитель (144) метаданных выполнен с возможностью вычисления для временного/частотного бина первого описания первой сцены значения энергии и значения направления поступления, и вычисления для временного/частотного бина второго описания второй сцены значения энергии и значения направления поступления, и при этом объединитель (140) форматов выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного значения направления поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
13. Устройство по п. 1, дополнительно содержащее интерфейс (200, 300) вывода для добавления в объединенный формат отдельного описания объекта для аудиообъекта, причем описание объекта содержит по меньшей мере одно из направления, расстояния, диффузности или любого другого атрибута объекта, при этом объект имеет одно направление по всем полосам частот и является либо статическим, либо движущимся медленнее порогового значения скорости.
14. Способ формирования описания объединенной аудиосцены, содержащий этапы, на которых:
принимают первое описание первой сцены в первом формате и принимают второе описание второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразуют первое описание в общий формат и преобразуют второе описание в общий формат, когда второй формат отличается от общего формата; и
объединяют первое описание в общем формате и второе описание в общем формате для получения объединенной аудиосцены.
15. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 14.
16. Устройство для выполнения синтеза множества аудиосцен, содержащее:
интерфейс (100) ввода для приема первого описания DirAC первой сцены и для приема второго описания DirAC второй сцены и одного или более транспортных каналов; и
блок (220) синтеза DirAC для синтеза множества аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
17. Устройство по п. 16, в котором блок синтеза DirAC содержит:
объединитель (221) сцен для объединения первого описания DirAC и второго описания DirAC в объединенное описание DirAC; и
рендерер (222) DirAC для рендеринга объединенного описания DirAC с использованием одного или более транспортных каналов для получения аудиосигнала в спектральной области, или
при этом объединитель (221) сцен выполнен с возможностью вычисления, для временного/частотного бина первого описания первой сцены, значения энергии и значения направления поступления, и вычисления, для временного/частотного бина второго описания второй сцены, значения энергии и значения направления поступления, и при этом объединитель (221) сцен выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного направления значения поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
18. Устройство по п. 16,
в котором интерфейс (100) ввода выполнен с возможностью приема для описания DirAC отдельного транспортного канала и отдельных метаданных DirAC,
при этом блок (220) синтеза DirAC выполнен с возможностью рендеринга каждого описания с использованием транспортного канала и метаданных для соответствующего описания DirAC, чтобы получить аудиосигнал в спектральной области для каждого описания, и объединения аудиосигнала в спектральной области для каждого описания, чтобы получить аудиосигнал в спектральной области.
19. Устройство по п. 16, в котором интерфейс (100) ввода выполнен с возможностью приема дополнительных метаданных аудиообъекта для аудиообъекта, и
при этом блок (220) синтеза DirAC выполнен с возможностью выборочной манипуляции дополнительными метаданными аудиообъекта или данными объекта, которые относятся к метаданным, чтобы выполнять направленную фильтрацию на основании данных объекта, включенных в метаданные объекта, или на основании заданной пользователем информации о направлении, или
при этом блок (220) синтеза DirAC выполнен с возможностью выполнения в спектральной области нуль-фазовой функции (226) усиления, причем нуль-фазовая функция усиления зависит от направления аудиообъекта, при этом направление содержится в битовом потоке, если направления объектов передаются в качестве добавочной информации, или при этом направление принимается от интерфейса пользователя.
20. Способ выполнения синтеза множества аудиосцен, содержащий этапы, на которых:
принимают первое описание DirAC первой сцены и принимают второе описание DirAC второй сцены и один или более транспортных каналов; и
синтезируют множество аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
осуществляют спектрально-временное преобразование аудиосигнала в спектральной области во временную область.
21. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 20.
22. Преобразователь аудиоданных, содержащий:
интерфейс (100) ввода для приема описания объекта для аудиообъекта с метаданными аудиообъекта;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных аудиообъекта в метаданные DirAC; и
интерфейс (300) вывода для передачи или сохранения метаданных DirAC.
23. Преобразователь аудиоданных по п. 22, в котором метаданные аудиообъекта имеют позицию объекта и при этом метаданные DirAC имеют направление поступления относительно опорной позиции.
24. Преобразователь аудиоданных по п. 22,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью применения анализа DirAC к данным давления/скорости.
25. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема множества описаний аудиообъектов,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования каждого описания метаданных объекта в отдельное описание данных DirAC, и
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC для получения объединенного описания DirAC в качестве метаданных DirAC.
26. Преобразователь аудиоданных по п. 25, в котором преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC, причем каждое описание метаданных содержит метаданные направления поступления или метаданные направления поступления и метаданные диффузности, путем отдельного объединения метаданных направления поступления из разных описаний метаданных путем взвешенного сложения, при этом взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или путем объединения метаданных диффузности из разных описаний метаданных DirAC путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
27. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема для каждого аудиообъекта сигнала формы волны аудиообъекта в дополнение к этим метаданным объекта,
при этом преобразователь аудиоданных дополнительно содержит устройство (163) понижающего микширования для понижающего микширования сигналов формы волны аудиообъектов в один или более транспортных каналов, и
при этом интерфейс (300) вывода выполнен с возможностью передачи или сохранения одного или более транспортных каналов в ассоциации с метаданными DirAC.
28. Способ выполнения преобразования аудиоданных, содержащий этапы, на которых:
принимают описание объекта для аудиообъекта с метаданными аудиообъекта;
преобразуют метаданные аудиообъекта в метаданные DirAC; и
передают или сохраняют метаданные DirAC.
29. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 28.
30. Кодер аудиосцены, содержащий:
интерфейс (100) ввода для приема описания DirAC аудиосцены с метаданными DirAC и для приема сигнала объекта с метаданными объекта;
генератор (400) метаданных для формирования объединенного описания метаданных, содержащего метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, а метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.
31. Кодер аудиосцены по п. 30, в котором интерфейс (100) ввода выполнен с возможностью приема транспортного сигнала, ассоциированного с описанием DirAC аудиосцены, и при этом интерфейс (100) ввода выполнен с возможностью приема сигнала формы волны объекта, ассоциированного с сигналом объекта, и
при этом кодер аудиосцены дополнительно содержит кодер (170) транспортного сигнала для кодирования транспортного сигнала и сигнала формы волны объекта.
32. Кодер аудиосцены по п. 30,
при этом генератор (400) метаданных содержит преобразователь (150, 125, 126, 148) метаданных, который описан в любом из пп. 12-27.
33. Кодер аудиосцены по п. 30, в котором генератор (400) метаданных выполнен с возможностью формирования, для метаданных объекта, одного широкополосного направления на каждую единицу времени, и при этом генератор метаданных выполнен с возможностью актуализации одного широкополосного направления на каждую единицу времени менее часто, чем метаданных DirAC.
34. Способ кодирования аудиосцены, содержащий этапы, на которых:
принимают описание DirAC аудиосцены с метаданными DirAC и принимают сигнал объекта с метаданными объекта; и
формируют объединенное описание метаданных, содержащее метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, и при этом метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.
35. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 34.
36. Устройство для выполнения синтеза аудиоданных, содержащее:
интерфейс (100) ввода для приема описания DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или добавочную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, или информацию о позиции для многоканального сигнала в качестве добавочной информации или от интерфейса пользователя;
блок (500) манипулирования для манипулирования описанием DirAC одного или более аудиообъектов, многоканального сигнала, сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка для получения описания DirAC после манипуляции; и
блок (220, 240) синтеза DirAC для синтеза описания DirAC после манипуляции для получения синтезированных аудиоданных.
37. Устройство по п. 36,
при этом блок (220, 240) синтеза DirAC содержит рендерер (222) DirAC для выполнения рендеринга DirAC с использованием описания DirAC после манипуляции для получения аудиосигнала в спектральной области; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
38. Устройство по п. 36, в котором блок (500) манипулирования выполнен с возможностью выполнения зависимой от позиции операции взвешивания перед рендерингом DirAC.
39. Устройство по п. 36, в котором блок (220, 240) синтеза DirAC выполнен с возможностью вывода множества объектов или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или многоканального сигнала, и при этом блок (220, 240) синтеза DirAC выполнен с возможностью использования отдельного спектрально-временного преобразователя (240) для каждого объекта или каждого компонента сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка или для каждого канала многоканального сигнала.
40. Способ выполнения синтеза аудиоданных, содержащий этапы, на которых:
принимают описание DirAC одного или более аудиообъектов или многоканального сигнала или сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или многоканального сигнала или дополнительную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка в качестве добавочной информации или от интерфейса пользователя;
осуществляют манипулирование описанием DirAC для получения описания DirAC после манипуляции; и
синтезируют описание DirAC после манипуляции для получения синтезированных аудиоданных.
41. Компьютерная программа для выполнения, при исполнении на компьютере или процессоре, способа по п. 40.
RU2020115048A 2017-10-04 2018-10-01 УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ RU2759160C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17194816 2017-10-04
EP17194816.9 2017-10-04
PCT/EP2018/076641 WO2019068638A1 (en) 2017-10-04 2018-10-01 APPARATUS, METHOD AND COMPUTER PROGRAM FOR CODING, DECODING, SCENE PROCESSING AND OTHER PROCEDURES RELATED TO DIRAC-BASED SPATIAL AUDIO CODING

Publications (3)

Publication Number Publication Date
RU2020115048A true RU2020115048A (ru) 2021-11-08
RU2020115048A3 RU2020115048A3 (ru) 2021-11-08
RU2759160C2 RU2759160C2 (ru) 2021-11-09

Family

ID=60185972

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020115048A RU2759160C2 (ru) 2017-10-04 2018-10-01 УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ

Country Status (18)

Country Link
US (3) US11368790B2 (ru)
EP (2) EP3692523B1 (ru)
JP (2) JP7297740B2 (ru)
KR (2) KR102468780B1 (ru)
CN (2) CN111630592B (ru)
AR (2) AR117384A1 (ru)
AU (2) AU2018344830B2 (ru)
BR (1) BR112020007486A2 (ru)
CA (4) CA3076703C (ru)
ES (1) ES2907377T3 (ru)
MX (1) MX2020003506A (ru)
PL (1) PL3692523T3 (ru)
PT (1) PT3692523T (ru)
RU (1) RU2759160C2 (ru)
SG (1) SG11202003125SA (ru)
TW (2) TWI700687B (ru)
WO (1) WO2019068638A1 (ru)
ZA (1) ZA202001726B (ru)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7321170B2 (ja) * 2018-04-16 2023-08-04 ドルビー ラボラトリーズ ライセンシング コーポレイション 方向性音源のエンコードおよびデコードのための方法、装置およびシステム
CN111837182A (zh) * 2018-07-02 2020-10-27 杜比实验室特许公司 用于产生或解码包括沉浸式音频信号的位流的方法及装置
US11765536B2 (en) 2018-11-13 2023-09-19 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
BR112021010956A2 (pt) * 2018-12-07 2021-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para gerar uma descrição de campo de som
US11158335B1 (en) * 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
JP7469298B2 (ja) 2019-04-24 2024-04-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 到来方向推定装置、システム、及び、到来方向推定方法
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
KR20220088864A (ko) * 2019-10-30 2022-06-28 돌비 레버러토리즈 라이쎈싱 코오포레이션 몰입형 음성 및 오디오 서비스에서 비트레이트 분배
EP4229631A2 (en) * 2020-10-13 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects
KR20230088402A (ko) 2020-10-13 2023-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복수의 오디오 객체를 인코딩하는 장치 및 방법 또는 둘 이상의 관련 오디오 객체를 이용하여 디코딩하는 장치 및 방법(Apparatus and method for encoding a plurality of audio objects or appratus and method for decoding using two or more relevant audio objects)
TWI816071B (zh) * 2020-12-09 2023-09-21 宏正自動科技股份有限公司 音訊轉換裝置及音訊處理方法
GB2608406A (en) * 2021-06-30 2023-01-04 Nokia Technologies Oy Creating spatial audio stream from audio objects with spatial extent
WO2024069796A1 (ja) * 2022-09-28 2024-04-04 三菱電機株式会社 音空間構築装置、音空間構築システム、プログラム及び音空間構築方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233562B1 (en) * 1996-12-09 2001-05-15 Matsushita Electric Industrial Co., Ltd. Audio decoding device and signal processing device for decoding multi-channel signals with reduced memory requirements
US8872979B2 (en) 2002-05-21 2014-10-28 Avaya Inc. Combined-media scene tracking for audio-video summarization
TW200742359A (en) 2006-04-28 2007-11-01 Compal Electronics Inc Internet communication system
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
WO2009109217A1 (en) * 2008-03-03 2009-09-11 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
PL2154677T3 (pl) * 2008-08-13 2013-12-31 Fraunhofer Ges Forschung Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio
US8504184B2 (en) * 2009-02-04 2013-08-06 Panasonic Corporation Combination device, telecommunication system, and combining method
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US20130003998A1 (en) * 2010-02-26 2013-01-03 Nokia Corporation Modifying Spatial Image of a Plurality of Audio Signals
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
EP2448289A1 (en) * 2010-10-28 2012-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for deriving a directional information and computer program product
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013156818A1 (en) * 2012-04-19 2013-10-24 Nokia Corporation An audio scene apparatus
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
CN103236255A (zh) * 2013-04-03 2013-08-07 广西环球音乐图书有限公司 音频文件转化midi文件
DE102013105375A1 (de) 2013-05-24 2014-11-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonsignalerzeuger, Verfahren und Computerprogramm zum Bereitstellen eines Tonsignals
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
KR101993348B1 (ko) * 2014-09-24 2019-06-26 한국전자통신연구원 동적 포맷 변환을 지원하는 오디오 메타데이터 제공 장치 및 오디오 데이터 재생 장치, 상기 장치가 수행하는 방법 그리고 상기 동적 포맷 변환들이 기록된 컴퓨터에서 판독 가능한 기록매체
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN104768053A (zh) 2015-04-15 2015-07-08 冯山泉 一种基于流分解和流重组的格式转换方法及系统

Also Published As

Publication number Publication date
TW202016925A (zh) 2020-05-01
US20220150633A1 (en) 2022-05-12
EP3692523A1 (en) 2020-08-12
ZA202001726B (en) 2021-10-27
US20200221230A1 (en) 2020-07-09
AU2018344830B2 (en) 2021-09-23
ES2907377T3 (es) 2022-04-25
KR20220133311A (ko) 2022-10-04
CA3134343A1 (en) 2019-04-11
AU2021290361B2 (en) 2024-02-22
MX2020003506A (es) 2020-07-22
JP7297740B2 (ja) 2023-06-26
EP3975176A2 (en) 2022-03-30
PL3692523T3 (pl) 2022-05-02
US11729554B2 (en) 2023-08-15
AU2021290361A1 (en) 2022-02-03
RU2020115048A3 (ru) 2021-11-08
EP3975176A3 (en) 2022-07-27
CA3219540A1 (en) 2019-04-11
PT3692523T (pt) 2022-03-02
BR112020007486A2 (pt) 2020-10-27
AR117384A1 (es) 2021-08-04
CA3219566A1 (en) 2019-04-11
AU2018344830A1 (en) 2020-05-21
WO2019068638A1 (en) 2019-04-11
TW201923744A (zh) 2019-06-16
JP2020536286A (ja) 2020-12-10
SG11202003125SA (en) 2020-05-28
TWI834760B (zh) 2024-03-11
AR125562A2 (es) 2023-07-26
EP3692523B1 (en) 2021-12-22
KR102468780B1 (ko) 2022-11-21
CN117395593A (zh) 2024-01-12
CN111630592B (zh) 2023-10-27
KR20200053614A (ko) 2020-05-18
US11368790B2 (en) 2022-06-21
CA3076703C (en) 2024-01-02
TWI700687B (zh) 2020-08-01
RU2759160C2 (ru) 2021-11-09
AU2018344830A8 (en) 2020-06-18
CN111630592A (zh) 2020-09-04
CA3076703A1 (en) 2019-04-11
JP2023126225A (ja) 2023-09-07
US20220150635A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
RU2020115048A (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
US9257128B2 (en) Apparatus and method for coding and decoding multi object audio signal with multi channel
RU2537044C2 (ru) Устройство для формирования выходного пространственного многоканального аудио сигнала
CN107623894B (zh) 渲染音频信号的方法
JP6239145B2 (ja) 幾何学的な距離定義を使用してオーディオレンダリングする装置および方法
CN102883257B (zh) 用于编码多对象音频信号的设备和方法
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
CN101529501B (zh) 音频对象编码器和音频对象编码方法
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
CN107017002A (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
EP4243016A2 (en) Decoding device and decoding method, and program
EP3732678B1 (en) Determination of spatial audio parameter encoding and associated decoding
RU2008114359A (ru) Аудиокодирование
US11328735B2 (en) Determination of spatial audio parameter encoding and associated decoding
CN101529504A (zh) 多通道参数转换的装置和方法
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
TWI711034B (zh) 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體
Hold et al. Compression of higher-order ambisonic signals using directional audio coding
CN108028988B (zh) 处理低复杂度格式转换的内部声道的设备和方法
CN118251722A (zh) 空间音频参数解码