RU2641481C2 - Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов - Google Patents

Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов Download PDF

Info

Publication number
RU2641481C2
RU2641481C2 RU2016105518A RU2016105518A RU2641481C2 RU 2641481 C2 RU2641481 C2 RU 2641481C2 RU 2016105518 A RU2016105518 A RU 2016105518A RU 2016105518 A RU2016105518 A RU 2016105518A RU 2641481 C2 RU2641481 C2 RU 2641481C2
Authority
RU
Russia
Prior art keywords
audio
channels
objects
encoder
output
Prior art date
Application number
RU2016105518A
Other languages
English (en)
Other versions
RU2016105518A (ru
Inventor
Александер АДАМИ
Кристиан БОРСС
Саша ДИК
Кристиан ЭРТЕЛЬ
Зимоне ФЮГ
Юрген ХЕРРЕ
Йоханнес ХИЛЬПЕРТ
Андреас ХЕЛЬЦЕР
Михаэль КРАЧМЕР
Фабиан КЮХ
Ахим КУНТЦ
Адриан МУРТАЗА
Ян ПЛОГСТИС
Андреас ЗИЛЬЦЛЕ
Ханне ШТЕНЦЕЛЬ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105518A publication Critical patent/RU2016105518A/ru
Application granted granted Critical
Publication of RU2641481C2 publication Critical patent/RU2641481C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к кодированию аудио и, в частности, к пространственному кодированию аудиообъектов. Технический результат заключается в повышении эффективности сжатия при высоком качестве звука. Технический результат достигается за счет аудиокодера для кодирования входных аудиоданных, который, чтобы получать выходные аудиоданные, содержит входной интерфейс для приема множества аудиоканалов, множества аудиообъектов и метаданных, связанных с одним или более из множества аудиообъектов; микшер для сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, причем каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта; базовый кодер для базового кодирования входных данных базового кодера; и модуль сжатия метаданных для сжатия метаданных, связанных с одним или более из множества аудиообъектов. 5 н. и 19 з.п. ф-лы, 11 ил.

Description

Настоящее изобретение относится к кодированию/декодированию аудио и, в частности, к пространственному кодированию аудио и пространственному кодированию аудиообъектов.
Инструментальные средства пространственного кодирования аудио известны в данной области техники и стандартизированы, например, в стандарте объемного звучания MPEG. Пространственное кодирование аудио начинается с исходных входных каналов, к примеру с пяти или семи каналов, которые идентифицируются посредством их размещения в компоновке для воспроизведения, т.е. как левого канала, центрального канала, правого канала, левого канала объемного звучания, правого канала объемного звучания и канала улучшения низких частот. Пространственный аудиокодер, как правило, извлекает один или более каналов понижающего микширования из исходных каналов и, дополнительно, извлекает параметрические данные, связанные с пространственными сигнальными метками, такие как межканальные разности уровней в значениях канальной когерентности, межканальные разности фаз, межканальные разности времен и т.д. Один или более каналов понижающего микширования передаются вместе с параметрической вспомогательной информацией, указывающей пространственные сигнальные метки, в пространственный аудиодекодер, который декодирует канал понижающего микширования и ассоциированные параметрические данные, чтобы в итоге получать выходные каналы, которые являются аппроксимированной версией исходных входных каналов. Размещение каналов в выходной компоновке, как правило, является фиксированным и представляет собой, например, 5.1-формат, 7.1-формат и т.д.
Дополнительно, инструментальные средства пространственного кодирования аудиообъектов известны в данной области техники и стандартизированы в MPEG SAOC-стандарте (SAOC – пространственное кодирование аудиообъектов). В отличие от пространственного кодирования аудио, начинающегося с исходных каналов, пространственное кодирование аудиообъектов начинается с аудиообъектов, которые автоматически не выделяются для определенной компоновки для воспроизведения при рендеринге. Вместо этого, размещение аудиообъектов в сцене для воспроизведения является гибким и может определяться пользователем посредством ввода определенной информации рендеринга в декодер по стандарту пространственного кодирования аудиообъектов. Альтернативно или дополнительно, информация рендеринга, т.е. информация в отношении того, в какой позиции в компоновке для воспроизведения, как правило, должен размещаться определенный аудиообъект во времени, может передаваться в качестве дополнительной вспомогательной информации или метаданных. Чтобы получать определенное сжатие данных, определенное число аудиообъектов кодируются посредством SAOC-кодера, который вычисляет, из входных объектов, один или более транспортных каналов посредством понижающего микширования объектов в соответствии с определенной информацией понижающего микширования. Кроме того, SAOC-кодер вычисляет параметрическую вспомогательную информацию, представляющую межобъектные сигнальные метки, к примеру, разности уровней объектов (OLD), значения когерентности объектов и т.д. Аналогично SAC (SAC – пространственное кодирование аудио), межобъектные параметрические данные вычисляются для отдельных частотно-временных мозаичных фрагментов, т.е. для определенного кадра аудиосигнала, содержащего, например, 1024 или 2048 выборок, рассматриваются 24, 32 или 64 и т.д. полос частот, так что, в конечном счете, параметрические данные существуют для каждого кадра и каждой полосы частот. В качестве примера, когда аудиофрагмент имеет 20 кадров, и когда каждый кадр подразделяется на 32 полосы частот, в таком случае число частотно-временных мозаичных фрагментов равно 640.
К настоящему времени, отсутствуют гибкие технологии для комбинирования кодирования каналов, с одной стороны, и кодирования объектов, с другой стороны, таким образом, что на низких скоростях передачи битов получаются приемлемые качества звука.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для кодирования аудио и декодирования аудио.
Это цель достигается посредством аудиокодера по п. 1, аудиодекодера по п. 8, способа кодирования аудио по п. 22, способа декодирования аудио по п. 23 или компьютерной программы по п. 24.
Настоящее изобретение основано на таких выявленных сведениях, что оптимальная система, гибкая, с одной стороны, и обеспечивающая хорошую эффективность сжатия при высоком качестве звука, с другой стороны, достигается посредством комбинирования пространственного кодирования аудио, т.е. канального кодирования аудио, с пространственным кодированием аудиообъектов, т.е. объектно-ориентированным кодированием. В частности, предоставление микшера для сведения объектов и каналов уже на стороне кодера обеспечивает хорошую гибкость, в частности, для вариантов применения с низкой скоростью передачи битов, поскольку любая передача объектов в таком случае может быть необязательной, либо может уменьшаться число объектов, которые должны передаваться. С другой стороны, требуется гибкость, так что аудиокодер может управляться в двух различных режимах, т.е. в режиме, в котором объекты сводятся с каналами перед подверганием базовому кодированию, тогда как в другом режиме данные объектов, с одной стороны, и данные каналов, с другой стороны, подвергаются непосредственному базовому кодированию без промежуточного сведения.
Это обеспечивает то, что пользователь может разделять обработанные объекты и каналы на стороне кодера таким образом, что полная гибкость доступна на стороне декодера, но за счет повышенной скорости передачи битов. С другой стороны, когда требования по скорости передачи битов являются более строгими, в таком случае настоящее изобретение обеспечивает возможность выполнять сведение/предварительный рендеринг уже на стороне кодера, т.е. при этом некоторые или все аудиообъекты уже сведены с каналами, так что базовый кодер кодирует только данные каналов, и не требуются биты, необходимые для передачи данных аудиообъектов в форме понижающего микширования или в форме параметрических межобъектных данных.
На стороне декодера, пользователь также имеет высокую гибкость вследствие того факта, что идентичный аудиодекодер обеспечивает возможность работы в двух различных режимах, т.е. в первом режиме, в котором осуществляется отдельное или раздельное кодирование каналов и объектов, и декодер имеет полную гибкость при рендеринге объектов и сведении с данными каналов. С другой стороны, когда сведение/предварительный рендеринг уже осуществлено на стороне кодера, декодер выполнен с возможностью осуществлять постобработку без промежуточной обработки объектов. С другой стороны, постобработка также может применяться к данным в другом режиме, т.е. когда рендеринг/сведение объектов осуществляется на стороне декодера. Таким образом, настоящее изобретение обеспечивает возможность инфраструктуры задач обработки, которая позволяет значительное многократное использование ресурсов не только на стороне кодера, но также и на стороне декодера. Постобработка может означать понижающее микширование и бинаурализацию либо любую другую обработку для того, чтобы получать конечный сценарий для каналов, такой как намеченная схема размещения для воспроизведения.
Кроме того, в случае очень низких требований по скорости передачи битов, настоящее изобретение предоставляет пользователю достаточную гибкость для того, чтобы реагировать на низкие требования по скорости передачи битов, т.е. посредством предварительного рендеринга на стороне кодера, так что несмотря на это, за счет некоторой гибкости получается очень высокое качество звука на стороне декодера вследствие того факта, что биты, которые сэкономлены без дополнительного предоставления данных объектов из кодера в декодер, могут использоваться для лучшего кодирования данных каналов, к примеру, посредством более точного квантования данных каналов либо посредством другого средства для повышения качества или для уменьшения потерь при кодировании, когда доступно достаточное число битов.
В предпочтительном варианте осуществления настоящего изобретения, кодер дополнительно содержит SAOC-кодер и, кроме того, обеспечивает возможность не только кодировать объекты, вводимые в кодер, но и также SAOC-кодировать данные каналов для того, чтобы получать высокое качество звука на еще более низких требуемых скоростях передачи битов. Дополнительные варианты осуществления настоящего изобретения обеспечивают возможность функциональности постобработки, которая содержит модуль бинаурального рендеринга и/или преобразователь форматов. Кроме того, предпочтительно, чтобы полная обработка на стороне декодера уже осуществлялась для определенного высокого числа громкоговорителей, к примеру для 22- или 32-канальной компоновки громкоговорителей. Тем не менее, в таком случае преобразователь форматов, например, определяет то, что требуется только 5.1-вывод, т.е. вывод для схемы размещения для воспроизведения, который имеет меньшее число относительно максимального числа каналов, то предпочтительно, если преобразователь форматов управляет либо USAC-декодером, либо SAOC-декодером, либо обоими устройствами таким образом, чтобы ограничивать операцию базового декодирования и операцию SAOC-декодирования, так что каналы, которые, в конечном счете все-таки микшируются с понижением в преобразование формата, не формируются при декодировании. Как правило, формирование микшированных с повышением каналов требует обработки декорреляции, и каждая обработка декорреляции вводит некоторый уровень артефактов. Следовательно, посредством управления базовым декодером и/или SAOC-декодером посредством конечного требуемого выходного формата, значительно сокращается объем дополнительной обработки декорреляции по сравнению с ситуацией, когда это взаимодействие не существует, что не только приводит к повышенному качеству звука, но также и приводит к меньшей сложности декодера и, в конечном счете, к пониженному потреблению мощности, что является особенно полезным для мобильных устройств, содержащих изобретаемый кодер или изобретаемый декодер. Тем не менее, изобретаемые кодеры/декодеры могут не только вводиться в мобильных устройствах, таких как мобильные телефоны, смартфоны, ноутбуки или навигационные устройства, но также могут использоваться в простых настольных компьютерах либо в любых других немобильных устройствах.
Вышеуказанная реализация, т.е. неформирование некоторых каналов, может быть неоптимальной, поскольку некоторая информация может быть потеряна (к примеру, разность уровней между каналами, которые микшированы с понижением). Эта информация разности уровней может не быть критически важной, но может приводить к различному выходному сигналу понижающего микширования, если понижающее микширование применяет различные усиления понижающего микширования к микшированным с повышением каналам. Усовершенствованное решение только отключает декорреляцию в повышающем микшировании, но по-прежнему формирует все каналы повышающего микширования с корректными разностями уровней (передаваемыми в служебных сигналах посредством параметрического SAC). Второе решение приводит к лучшему качеству звука, но первое решение приводит к большему снижению сложности.
Далее поясняются предпочтительные варианты осуществления относительно прилагаемых чертежей, на которых:
Фиг. 1 иллюстрирует первый вариант осуществления кодера;
Фиг. 2 иллюстрирует первый вариант осуществления декодера;
Фиг. 3 иллюстрирует второй вариант осуществления кодера;
Фиг. 4 иллюстрирует второй вариант осуществления декодера;
Фиг. 5 иллюстрирует третий вариант осуществления кодера;
Фиг. 6 иллюстрирует третий вариант осуществления декодера;
Фиг. 7 иллюстрирует карту, указывающую отдельные режимы, в которых могут работать кодеры/декодеры в соответствии с вариантами осуществления настоящего изобретения;
Фиг. 8 иллюстрирует конкретную реализацию преобразователя форматов;
Фиг. 9 иллюстрирует конкретную реализацию бинаурального преобразователя;
Фиг. 10 иллюстрирует конкретную реализацию базового декодера; и
Фиг. 11 иллюстрирует конкретную реализацию кодера для обработки четырехканального элемента (QCE) и соответствующего QCE-декодера.
Фиг. 1 иллюстрирует кодер в соответствии с вариантом осуществления настоящего изобретения. Кодер выполнен с возможностью кодирования входных аудиоданных 101, чтобы получать выходные аудиоданные 501. Кодер содержит входной интерфейс для приема множества аудиоканалов, указываемых посредством CH, и множества аудиообъектов, указываемых посредством OBJ. Кроме того, как проиллюстрировано на фиг. 1, входной интерфейс 100 дополнительно принимает метаданные, связанные с одним или более из множества аудиообъектов OBJ. Кроме того, кодер содержит микшер 200 для сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, при этом каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта.
Кроме того, кодер содержит базовый кодер 300 для базового кодирования входных данных базового кодера, модуль 400 сжатия метаданных для сжатия метаданных, связанных с одним или более из множества аудиообъектов. Кроме того, кодер может содержать контроллер 600 режима для управления микшером, базовым кодером и/или выходным интерфейсом 500 в одном из нескольких рабочих режимов, при этом в первом режиме базовый кодер выполнен с возможностью кодировать множество аудиоканалов и множество аудиообъектов, принимаемых посредством входного интерфейса 100, без взаимодействия посредством микшера, т.е. без сведения посредством микшера 200. Тем не менее, во втором режиме, в котором микшер 200 является активным, базовый кодер кодирует множество сведенных каналов, т.е. вывод, сформированный посредством блока 200. В этом втором случае, предпочтительно более не кодировать данные объектов. Вместо этого, метаданные, указывающие позиции аудиообъектов, уже использованы посредством микшера 200 для того, чтобы подготавливать посредством рендеринга объекты для каналов, как указано посредством метаданных. Другими словами, микшер 200 использует метаданные, связанные с множеством аудиообъектов, для того чтобы предварительно подготавливать посредством рендеринга аудиообъекты, и затем предварительно подготовленные посредством рендеринга аудиообъекты сводятся с каналами для того, чтобы получать сведенные каналы в выводе микшера. В этом варианте осуществления, любые объекты не обязательно могут передаваться, и это также применимо для сжатых метаданных в качестве вывода посредством блока 400. Тем не менее, если сводятся не все объекты, вводимые в интерфейс 100, а сводится только определенное количество объектов, то несмотря на это, только оставшиеся несведенные объекты и ассоциированные метаданные передаются в базовый кодер 300 или модуль 400 сжатия метаданных, соответственно.
Фиг. 3 иллюстрирует дополнительный вариант осуществления кодера, который, дополнительно, содержит SAOC-кодер 800. SAOC-кодер 800 выполнен с возможностью формирования одного или более транспортных каналов и параметрических данных из входных данных кодера пространственных аудиообъектов. Как проиллюстрировано на фиг. 3, входные данные кодера пространственных аудиообъектов представляют собой объекты, которые не обработаны посредством модуля предварительного рендеринга/микшера. Альтернативно, при условии, что модуль предварительного рендеринга/микшер обходится, аналогично режиму один, в котором отдельное кодирование каналов/объектов является активным, все объекты, вводимые во входной интерфейс 100, кодируются посредством SAOC-кодера 800.
Кроме того, как проиллюстрировано на фиг. 3, базовый кодер 300 предпочтительно реализован в качестве USAC-кодера, т.е. в качестве кодера, заданного и стандартизированного в MPEG USAC-стандарте (USAC – стандартизированное кодирование речи и аудио). Вывод всего кодера, проиллюстрированный на фиг. 3, представляет собой MPEG4-поток данных, имеющий структуры в форме контейнера для отдельных типов данных. Кроме того, метаданные указываются в качестве OAM-данных, и модуль 400 сжатия метаданных на фиг. 1 соответствует OAM-кодеру 400 для того, чтобы получать сжатые OAM-данные, которые вводятся в USAC-кодер 300 который, как можно видеть на фиг. 3, дополнительно содержит выходной интерфейс, чтобы получать выходной MP4-поток данных, имеющий не только кодированные данные каналов/объектов, но также и имеющий сжатые OAM-данные.
Фиг. 5 иллюстрирует дополнительный вариант осуществления кодера, в котором, в отличие от фиг. 3, SAOC-кодер может быть выполнен с возможностью либо кодировать, с помощью алгоритма SAOC-кодирования, каналы, предоставленные в модуле 200 предварительного рендеринга/микшере, не активные в этом режиме, либо, альтернативно, SAOC-кодировать предварительно подготовленные посредством рендеринга каналы плюс объекты. Таким образом, на фиг. 5, SAOC-кодер 800 может управлять тремя различными видами входных данных, т.е. каналами без предварительно подготовленных посредством рендеринга объектов, каналами и предварительно подготовленными посредством рендеринга объектами либо только объектами. Кроме того, предпочтительно предоставлять дополнительный OAM-декодер 420 на фиг. 5, так что SAOC-кодер 800 использует, для своей обработки, данные, идентичные данным на стороне декодера, т.е. данные, полученные посредством сжатия с потерями, а не исходные OAM-данные.
Кодер по фиг. 5 может работать в нескольких отдельных режимах.
В дополнение к первому и второму режимам, как пояснено в контексте фиг. 1, кодер по фиг. 5 дополнительно может работать в третьем режиме, в котором базовый кодер формирует один или более транспортных каналов из отдельных объектов, когда модуль 200 предварительного рендеринга/микшер не является активным. Альтернативно или дополнительно, в этом третьем режиме, SAOC-кодер 800 может формировать один или более альтернативных или дополнительных транспортных каналов из исходных каналов, т.е. так же тогда, когда модуль 200 предварительного рендеринга/микшер, соответствующий микшеру 200 по фиг. 1, не является активным.
В завершение, SAOC-кодер 800 может кодировать, когда кодер сконфигурирован в четвертом режиме, каналы плюс предварительно подготовленные посредством рендеринга объекты, сформированные посредством модуля предварительного рендеринга/микшера. Таким образом, в четвертом режиме, варианты применения с наименьшей скоростью передачи битов должны предоставлять хорошее качество вследствие того факта, что каналы и объекты полностью преобразованы в отдельные транспортные SAOC-каналы и ассоциированную вспомогательную информацию, как указано на фиг. 3 и 5 в качестве "SAOC-SI", и дополнительно, сжатые метаданные не должны обязательно передаваться в этом четвертом режиме.
Фиг. 2 иллюстрирует декодер в соответствии с вариантом осуществления настоящего изобретения. Декодер принимает, в качестве ввода, кодированные аудиоданные, т.е. данные 501 по фиг. 1.
Декодер содержит модуль 1400 распаковки метаданных, базовый декодер 1300, процессор 1200 объектов, контроллер 1600 режима и постпроцессор 1700.
В частности, аудиодекодер выполнен с возможностью декодирования кодированных аудиоданных, и входной интерфейс выполнен с возможностью приема кодированных аудиоданных, причем кодированные аудиоданные содержат множество кодированных каналов и множество кодированных объектов, а также сжатые метаданные, связанные с множеством объектов в определенном режиме.
Кроме того, базовый декодер 1300 выполнен с возможностью декодирования множества кодированных каналов и множества кодированных объектов, и дополнительно, модуль распаковки метаданных выполнен с возможностью распаковки сжатых метаданных.
Кроме того, процессор 1200 объектов выполнен с возможностью обработки множества декодированных объектов, сформированных посредством базового декодера 1300 с использованием распакованных метаданных, чтобы получать предварительно определенное число выходных каналов, содержащих данные объектов и декодированные каналы. Эти выходные каналы, как указано на 1205, затем вводятся в постпроцессор 1700. Постпроцессор 1700 выполнен с возможностью преобразования определенного числа выходных каналов 1205 в определенный выходной формат, который может представлять собой бинауральный выходной формат или выходной формат громкоговорителей, такой как выходной 5.1-, 7.1- и т.д. формат.
Предпочтительно, декодер содержит контроллер 1600 режима, который выполнен с возможностью анализа кодированных данных, чтобы обнаруживать индикатор режима. Следовательно, контроллер 1600 режима соединяется с входным интерфейсом 1100 на фиг. 2. Тем не менее, альтернативно, контроллер режима необязательно должен предоставляться здесь. Вместо этого, гибкий декодер может быть предварительно установлен посредством любого другого вида управляющих данных, таких как пользовательский ввод или любое другое управление. Аудиодекодер на фиг. 2, предпочтительно управляемый посредством контроллера 1600 режима, выполнен с возможностью обходить процессор объектов и подавать множество декодированных каналов в постпроцессор 1700. Это представляет собой работу в режиме 2, т.е. в котором принимаются только предварительно подготовленные посредством рендеринга каналы, т.е. когда режим 2 применяется в кодере по фиг. 1. Альтернативно, когда режим 1 применяется в кодере, т.е. когда кодер выполняет отдельное кодирование каналов/объектов, в таком случае процессор 1200 объектов не обходится, но множество декодированных каналов и множество декодированных объектов подаются в процессор 1200 объектов вместе с распакованными метаданными, сформированными посредством модуля 1400 распаковки метаданных.
Предпочтительно, индикатор того, должен применяться режим 1 или режим 2, включен в кодированные аудиоданные, и затем контроллер 1600 режима анализирует кодированные данные, чтобы обнаруживать индикатор режима. Режим 1 используется, когда индикатор режима указывает то, что кодированные аудиоданные содержат кодированные каналы и кодированные объекты, и режим 2 применяется, когда индикатор режима указывает то, что кодированные аудиоданные не содержат аудиообъекты, т.е. содержат только предварительно подготовленные посредством рендеринга каналы, полученные посредством режима 2 кодера по фиг. 1.
Фиг. 4 иллюстрирует предпочтительный вариант осуществления по сравнению с декодером по фиг. 2, и вариант осуществления по фиг. 4 соответствует кодеру по фиг. 3. В дополнение к реализации декодера по фиг. 2, декодер на фиг. 4 содержит SAOC-декодер 1800. Кроме того, процессор 1200 объектов по фиг. 2 реализуется как отдельный модуль 1210 рендеринга объектов и микшер 1220, в то время как, в зависимости от режима, функциональность модуля 1210 рендеринга объектов также может реализовываться посредством SAOC-декодера 1800.
Кроме того, постпроцессор 1700 может реализовываться как модуль 1710 бинаурального рендеринга или преобразователь 1720 форматов. Альтернативно, прямой вывод данных 1205 по фиг. 2 также может реализовываться так, как проиллюстрировано посредством 1730. Следовательно, предпочтительно выполнять обработку в декодере для наибольшего числа каналов, к примеру, 22.2 или 32, с тем чтобы получать гибкость, а затем постобрабатывать, если требуется меньший формат. Тем не менее, когда становится очевидным с самого начала, что требуется только небольшой формат, такой как 5.1-формат, то предпочтительно, как указано посредством фиг. 2 или 6 посредством срезки 1727, когда определенное управление SAOC-декодером и/или USAC-декодером может применяться во избежание необязательных операций повышающего микширования и последующих операций понижающего микширования.
В предпочтительном варианте осуществления настоящего изобретения, процессор 1200 объектов содержит SAOC-декодер 1800, и SAOC-декодер выполнен с возможностью декодирования одного или более транспортных каналов, выводимых посредством базового декодера, и ассоциированных параметрических данных и с использованием распакованных метаданных, чтобы получать множество подготовленных посредством рендеринга аудиообъектов. С этой целью, OAM-вывод соединяется с блоком 1800.
Кроме того, процессор 1200 объектов выполнен с возможностью подготавливать посредством рендеринга декодированные объекты, выводимые посредством базового декодера, которые не кодируются в транспортных SAOC-каналах, а которые по отдельности кодируются, как правило, в одноканальных элементах, как указано посредством модуля 1210 рендеринга объектов. Кроме того, декодер содержит выходной интерфейс, соответствующий выходу 1730, для вывода содержимого вывода микшера в громкоговорители.
В дополнительном варианте осуществления, процессор 1200 объектов содержит декодер 1800 по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов и ассоциированной параметрической вспомогательной информации, представляющей кодированные аудиообъекты или кодированные аудиоканалы, при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью транскодировать ассоциированную параметрическую информацию и распакованные метаданные в транскодированную параметрическую вспомогательную информацию, применимую для непосредственного рендеринга выходного формата, например, как задано в более ранней версии SAOC. Постпроцессор 1700 выполнен с возможностью вычисления аудиоканалов выходного формата с использованием декодированных транспортных каналов и транскодированной параметрической вспомогательной информации. Обработка, выполняемая посредством постпроцессора, может быть аналогичной обработке на основе стандарта объемного звучания MPEG или может представлять собой любую другую обработку, к примеру, BCC-обработку и т.п.
В дополнительном варианте осуществления, процессор 1200 объектов содержит декодер 1800 по стандарту пространственного кодирования аудиообъектов, выполненный с возможностью непосредственно микшировать с повышением и подготавливать посредством рендеринга сигналы каналов для выходного формата с использованием декодированных (посредством базового декодера) транспортных каналов и параметрической вспомогательной информации.
Кроме того, важно то, что процессор 1200 объектов по фиг. 2 дополнительно содержит микшер 1220, который принимает, в качестве ввода, непосредственно данные, выводимые посредством USAC-декодера 1300, когда существуют предварительно подготовленные посредством рендеринга объекты, сведенные с каналами, т.е. когда микшер 200 по фиг. 1 является активным. Дополнительно, микшер 1220 принимает данные из модуля рендеринга объектов, выполняющего рендеринг объектов без SAOC-декодирования. Кроме того, микшер принимает выходные данные SAOC-декодера, т.е. подготовленные посредством SAOC-рендеринга объекты.
Микшер 1220 соединяется с выходным интерфейсом 1730, модулем 1710 бинаурального рендеринга и преобразователем 1720 форматов. Модуль 1710 бинаурального рендеринга выполнен с возможностью рендеринга выходных каналов в два бинауральных канала с использованием передаточных функций восприятия звука человеком или бинауральных импульсных характеристик в помещении (BRIR). Преобразователь 1720 форматов выполнен с возможностью преобразования выходных каналов в выходной формат, имеющий меньшее число каналов относительно выходных каналов 1205 микшера, и преобразователь 1720 форматов запрашивает информацию по схеме размещения для воспроизведения, такую как 5.1-динамики и т.п.
Декодер по фиг. 6 отличается от декодера фиг. 4 тем, что SAOC-декодер может не только формировать подготовленные посредством рендеринга объекты, но также и подготовленные посредством рендеринга каналы, и это имеет место, когда использован кодер по фиг. 5, и соединение 900 между каналами/предварительно подготовленными посредством рендеринга объектами и входным интерфейсом SAOC-кодера 800 является активным.
Кроме того, сконфигурирован каскад 1810 векторного амплитудного панорамирования (VBAP), который принимает, из SAOC-декодера, информацию относительно схемы размещения для воспроизведения и который выводит матрицу рендеринга в SAOC-декодер таким образом, что SAOC-декодер может, в конечном счете, предоставлять подготовленные посредством рендеринга каналы без дальнейшей работы микшера в формате с большим числом каналов 1205, т.е. с 32 громкоговорителями.
VBAP-блок предпочтительно принимает декодированные OAM-данные, чтобы извлекать матрицы рендеринга. Обобщая, он предпочтительно запрашивает геометрическую информацию не только схемы размещения для воспроизведения, но также и позиций, в которых входные сигналы должны подготавливаться посредством рендеринга в схеме размещения для воспроизведения. Это геометрические входные данные могут быть OAM-данными для объектов или информацией позиций каналов для каналов, которые переданы с использованием SAOC.
Тем не менее, если требуется только конкретный выходной интерфейс, то VBAP-состояние 1810 уже может предоставлять требуемую матрицу рендеринга, например, для 5.1-вывода. SAOC-декодер 1800 затем выполняет прямой рендеринг из транспортных SAOC-каналов, ассоциированных параметрических данных и распакованных метаданных, прямой рендеринг в требуемый выходной формат без взаимодействия микшера 1220. Тем не менее, когда применяется определенное сведение между режимами, т.е. если SAOC-кодируются несколько каналов, а не все каналы SAOC-кодируются, либо если SAOC-кодируются несколько объектов, а не все объекты SAOC-кодируются, либо когда SAOC-декодируется только определенное количество предварительно подготовленных посредством рендеринга объектов с каналами, и оставшиеся каналы не SAOC-обрабатываются, то микшер объединяет данные из отдельных входных частей, т.е. непосредственно из базового декодера 1300, из модуля 1210 рендеринга объектов и из SAOC-декодера 1800.
Далее поясняется фиг. 7 для указания определенных режимов кодера/декодера, которые могут применяться посредством изобретаемого принципа сверхгибкого высококачественного аудиокодера/декодера.
В соответствии с первым режимом кодирования, микшер 200 в кодере по фиг. 1 обходится, и в силу этого процессор объектов в декодере по фиг. 2 не обходится.
Во втором режиме, микшер 200 на фиг. 1 является активным, и процессор объектов на фиг. 2 обходится.
Затем в третьем режиме кодирования, SAOC-кодер по фиг. 3 является активным, но только SAOC-кодирует объекты, а не каналы либо каналы, выводимые посредством микшера. Следовательно, режим 3 требует того, чтобы, на стороне декодера, проиллюстрированной на фиг. 4, SAOC-декодер был активным только для объектов и формировал подготовленные посредством рендеринга объекты.
В четвертом режиме кодирования, как проиллюстрировано на фиг. 5, SAOC-кодер выполнен с возможностью SAOC-кодирования предварительно подготовленных посредством рендеринга каналов, т.е. микшер является активным, аналогично второму режиму. На стороне декодера, SAOC-декодирование выполняется для предварительно подготовленных посредством рендеринга объектов таким образом, что процессор объектов обходится, аналогично второму режиму кодирования.
Кроме того, существует пятый режим кодирования, который может представлять собой любое сведение режимов 1-4. В частности, режим кодирования со сведением существует, когда микшер 1220 на фиг. 6 принимает каналы непосредственно из USAC-декодера и, дополнительно, принимает каналы с предварительно подготовленными посредством рендеринга объектами из USAC-декодера. Кроме того, в этом режиме сведенного кодирования, объекты кодируются непосредственно, предпочтительно, с использованием одноканального элемента USAC-декодера. В этом контексте, модуль 1210 рендеринга объектов затем должен подготавливать посредством рендеринга эти декодированные объекты и перенаправлять их в микшер 1220. Кроме того, несколько объектов дополнительно кодируются посредством SAOC-кодера таким образом, что SAOC-декодер должен выводить подготовленные посредством рендеринга объекты в микшер и/или подготовленные посредством рендеринга каналы, когда существуют несколько каналов, кодированных посредством SAOC-технологии.
Каждая входная часть микшера 1220 в таком случае в качестве примера может иметь по меньшей мере потенциал для приема определенного числа каналов, к примеру 32, как указано на 1205. Таким образом, по существу, микшер может принимать 32 канала из USAC-декодера и, дополнительно, 32 предварительно подготовленных посредством рендеринга/сведенных канала из USAC-декодера, и дополнительно, 32 "канала" из модуля рендеринга объектов, и дополнительно, 32 "канала" из SAOC-декодера, причем каждый "канал" между блоками 1210 и 1218, с одной стороны, и блоком 1220, с другой стороны, имеет долю соответствующих объектов в соответствующем канале громкоговорителя, и после этого микшер 1220 сводит, т.е. суммирует отдельные доли для каждого канала громкоговорителя.
В предпочтительном варианте осуществления настоящего изобретения, система кодирования/декодирования основана на MPEG-D USAC-кодеке для кодирования сигналов каналов и объектов. Чтобы повышать эффективность для кодирования большого количества объектов, адаптирована MPEG SAOC-технология. Три типа модулей рендеринга выполняют задачу рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в различную компоновку громкоговорителей. Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных объектов сжимается и мультиплексируется в кодированные выходные данные.
В варианте осуществления, модуль 200 предварительного рендеринга/микшер используется для того, чтобы преобразовывать сцену ввода каналов плюс объектов в сцену каналов перед кодированием. Функционально, он является идентичным комбинации модуля рендеринга объектов/микшера на стороне декодера, как проиллюстрировано на фиг. 4 или фиг. 6 и как указано посредством процессора 1200 объектов по фиг. 2. Предварительный рендеринг объектов обеспечивает детерминированную энтропию сигналов на входе кодера, которая является по существу независимой от числа одновременно активных сигналов объектов. При предварительном рендеринге объектов, не требуется передача метаданных объектов. Сигналы дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер выполнен с возможностью использовать. Весовые коэффициенты объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM), как указано посредством стрелки 402.
В качестве базового кодера/декодера для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов, предпочитается USAC-технология. Он обрабатывает кодирование множества сигналов посредством создания информации преобразования каналов и объектов (геометрической и семантической информации назначения входных каналов и объектов). Эта информация преобразования описывает то, как входные каналы и объекты преобразуются в канальные USAC-элементы, как проиллюстрировано на фиг. 10, т.е. в элементы канальных пар (CPE), одноканальные элементы (SCE), элементы канальных четверок (QCE), и соответствующая информация передается в базовый декодер из базового кодера. Все дополнительные рабочие данные, такие как SAOC-данные или метаданные объектов, проходят через расширенные элементы и учитываются при управлении скоростью кодера.
Кодирование объектов является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Следующие варианты кодирования объектов являются возможными.
Предварительно подготовленные посредством рендеринга объекты: Сигналы объектов предварительно подготавливаются посредством рендеринга и сводятся в 22.2-канальные сигналы перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы.
Формы сигналов дискретных объектов: Объекты предоставляются в качестве монофонических форм сигнала в кодер. Кодер использует одноканальные элементы (SCE) для того, чтобы передавать объекты в дополнение к сигналам каналов. Декодированные объекты подготавливаются посредством рендеринга и сводятся на стороне приемного устройства. Информация сжатых метаданных объектов передается в приемное устройство/модуль рендеринга совместно.
Формы сигналов параметрических объектов: Свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров. Понижающее микширование сигналов объектов кодируется с помощью USAC. Параметрическая информация передается совместно. Число каналов понижающего микширования выбирается в зависимости от числа объектов и полной скорости передачи данных. Информация сжатых метаданных объектов передается в модуль SAOC-рендеринга.
SAOC-кодер и декодер для сигналов объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов на основе меньшего числа передаваемых каналов и дополнительных параметрических данных (OLD, IOC (межобъектная когерентность), DMG (усиления при понижающем микшировании)). Дополнительные параметрические данные демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает кодирование очень эффективным.
SAOC-кодер принимает в качестве ввода сигналы объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию (которая пакетирована в трехмерный поток аудиобитов) и транспортные SAOC-каналы (которые кодируются с использованием одноканальных элементов и передаются).
SAOC-декодер восстанавливает сигналы объектов/каналов из декодированных транспортных SAOC-каналов и параметрической информации и формирует выходную аудиосцену на основе схемы размещения для воспроизведения, информации распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.
Для каждого объекта, ассоциированные метаданные, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации. Объем объекта может содержать информацию относительно пространственного охвата и/или информацию уровня сигнала для аудиосигнала этого аудиообъекта.
Модуль рендеринга объектов использует сжатые метаданные объектов для того, чтобы формировать формы сигналов объектов согласно данному формату воспроизведения. Каждый объект подготавливается посредством рендеринга в определенные выходные каналы согласно своим метаданным. Вывод этого блока получается в результате суммы частичных результатов.
Если декодируются как канальный контент, так и дискретные/параметрические объекты, канальные формы сигналов и подготовленные посредством рендеринга формы сигналов объектов сводятся перед выводом результирующих форм сигналов (или перед их подачей в модуль постпроцессора, такой как модуль бинаурального рендеринга или модуль рендеринга громкоговорителей).
Модуль бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала таким образом, что каждый входной канал представлен посредством виртуального источника звука. Обработка осуществляется покадрово в области QMF (гребенки квадратурных зеркальных фильтров).
Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.
Фиг. 8 иллюстрирует предпочтительный вариант осуществления преобразователя 1720 форматов. Модуль рендеринга громкоговорителей или преобразователь форматов выполняет преобразование между конфигурацией каналов передающего устройства и требуемым форматом воспроизведения. Этот преобразователь форматов выполняет преобразования в меньшее число выходных каналов, т.е. он создает понижающие микширования. С этой целью, понижающий микшер 1722, который предпочтительно работает в QMF-области, принимает выходные сигналы 1205 микшера и выводит сигналы громкоговорителей. Предпочтительно, предоставляется контроллер 1724 для конфигурирования понижающего микшера 1722, который принимает, в качестве управляющего входа, схему размещения выходов микшера, т.е. схему размещения, для которой определяются данные 1205, и требуемая схема размещения для воспроизведения, как правило, вводится в блок 1720 преобразования формата, проиллюстрированный на фиг. 6. На основе этой информации, контроллер 1724 предпочтительно автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных и выходных форматов и применяет эти матрицы в блоке 1722 понижающего микшера в процессе понижающего микширования. Преобразователь форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.
Как проиллюстрировано в контексте фиг. 6, SAOC-декодер спроектирован с возможностью подготавливать посредством рендеринга в предварительно заданную схему размещения каналов, такую как 22.2, с последующим преобразованием формата в целевую схему размещения для воспроизведения. Тем не менее, альтернативно, SAOC-декодер реализуется с возможностью поддерживать режим "с низким уровнем мощности", в котором SAOC-декодер выполнен с возможностью декодировать в схему размещения для воспроизведения непосредственно без последующего преобразования формата. В этой реализации, SAOC-декодер 1800 непосредственно выводит сигнал громкоговорителя, к примеру, сигналы 5.1-громкоговорителей, и SAOC-декодер 1800 требует информации схемы размещения для воспроизведения и матрицы рендеринга, так что может работать векторное амплитудное панорамирование или любой другой вид процессора для формирования информации понижающего микширования.
Фиг. 9 иллюстрирует дополнительный вариант осуществления модуля 1710 бинаурального рендеринга по фиг. 6. В частности, для мобильных устройств бинауральный рендеринг требуется для наушников, присоединенных к таким мобильным устройствам, или для громкоговорителей, непосредственно присоединенных к типично небольшим мобильным устройствам. Для таких мобильных устройств могут существовать ограничения, с тем чтобы ограничивать сложность декодера и рендеринга. В дополнение к опусканию декорреляции в таких сценариях обработки, предпочтительно сначала микшировать с понижением числа каналов с использованием понижающего микшера 1712 в промежуточное понижающее микширование, т.е. в меньшее число выходных каналов, что затем приводит к меньшему числу входных каналов для бинаурального преобразователя 1714. В качестве примера, 22.2-канальный материал микширован с понижением посредством понижающего микшера 1712 в промежуточное 5.1-понижающее микширование, либо альтернативно, промежуточное понижающее микширование непосредственно вычисляется посредством SAOC-декодера 1800 по фиг. 6 в виде режима срезки. Затем бинауральный рендеринг должен применять только десять HRTF (передаточных функций восприятия звука человеком) или BRIR-функций для рендеринга пяти отдельных каналов в различных позициях вместо применения 44 HRTF для BRIR-функций, если входные 22.2-каналы уже непосредственно подготовлены посредством рендеринга. В частности, операции свертки, необходимые для бинаурального рендеринга, требуют большого объема вычислительной мощности, и в силу этого уменьшение данной вычислительной мощности при одновременном получении приемлемого качества звука является особенно полезным для мобильных устройств.
Предпочтительно, "срезка", как проиллюстрировано посредством управляющей линии 1727, содержит управление декодером 1300 таким образом, чтобы декодировать в меньшее число каналов, т.е. пропуск полного блока OTT-обработки в декодере или преобразование формата в меньшее число каналов, как проиллюстрировано на фиг. 9, бинауральный рендеринг выполняется для меньшего числа каналов. Идентичная обработка может применяться не только для бинауральной обработки, но также и для преобразования формата, как проиллюстрировано посредством линии 1727 на фиг. 6.
В дополнительном варианте осуществления, требуется эффективное взаимодействие через интерфейс между блоками обработки. В частности, на фиг. 6, проиллюстрирован тракт передачи аудиосигналов между различными блоками обработки. Модуль 1710 бинаурального рендеринга, преобразователь 1720 форматов, SAOC-декодер 1800 и USAC-декодер 1300, в случае если применяется SBR (репликация полос спектра), работают в QMF- или гибридной QMF-области. В соответствии с вариантом осуществления, все эти блоки обработки предоставляют QMF- или гибридный QMF-интерфейс для того, чтобы обеспечивать возможность эффективной передачи аудиосигналов между собой в QMF-области. Дополнительно, предпочтительно также реализовывать модуль микшера и модуль рендеринга объектов таким образом, что они работают в QMF- или гибридной QMF-области. Как следствие, могут исключаться отдельные каскады QMF- или гибридного QMF-анализа и синтеза, что приводит к значительному снижению сложности, и в таком случае требуется только конечный каскад QMF-синтеза для формирования громкоговорителей, указываемых на 1730, либо для формирования бинауральных данных в выводе блока 1710, либо для формирования сигналов динамиков в схеме размещения для воспроизведения в выводе блока 1720.
Далее следует обратиться к фиг. 11 для того, чтобы пояснять четырехканальные элементы (QCE). В отличие от элемента канальной пары, как задано в USAC-MPEG-стандарте, четырехканальный элемент требует четырех входных каналов 90 и выводит кодированный QCE-элемент 91. В одном варианте осуществления, предоставляется иерархия из двух блоков по стандарту объемного звучания MPEG в режиме 2-1-2 или двух TTO-блоков (TTO – "два-к-одному") и дополнительных инструментальных средств объединенного стереокодирования (например, MS-стерео), как задано в стандарте MPEG USAC или объемного звучания MPEG, и QCE-элемент содержит не только два объединенно стереокодированных канала понижающего микширования и необязательно два объединенно стереокодированных остаточных канала, но и дополнительно, параметрические данные, извлекаемые, например, из двух TTO-блоков. На стороне декодера, применяется структура, в которой применяется объединенное стереодекодирование двух каналов понижающего микширования и необязательно двух остаточных каналов, и во втором каскаде с двумя OTT-блоками каналы понижающего микширования и необязательные остаточные каналы микшируются с повышением в четыре выходных канала. Тем не менее, альтернативные операции обработки для одного QCE-кодера могут применяться вместо иерархической операции. Таким образом, в дополнение к объединенному канальному кодированию группы из двух каналов, базовый кодер/декодер дополнительно использует объединенное канальное кодирование группы из четырех каналов.
Кроме того, предпочтительно выполнять усовершенствованную процедуру заполнения шумом, чтобы обеспечивать нескомпрометированное полнополосное (18 кГц) кодирование при 1200 Кбит/с.
Кодер работает в режиме "постоянной скорости с битовым резервированием" с использованием максимум 6144 битов в расчете на один канал в качестве буфера скорости для динамических данных.
Все дополнительные рабочие данные, такие как SAOC-данные или метаданные объектов, проходят через расширенные элементы и учитываются при управлении скоростью кодера.
Чтобы использовать преимущество SAOC-функциональностей также для трехмерного аудиоконтента, реализованы следующие расширения в MPEG SAOC:
- Понижающее микширование в произвольное число транспортных SAOC-каналов.
- Усовершенствованный рендеринг для выходных конфигураций с высоким числом громкоговорителей (до 22.2).
Модуль бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала, таким образом, что каждый входной канал (исключая LFE-каналы) представлен посредством виртуального источника звука. Обработка осуществляется покадрово в QMF-области.
Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении. Прямой звук и ранние отражения отпечатаны в аудиоматериал через сверточный подход в псевдо-FFT-области с использованием быстрой свертки поверх QMF-области.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием постоянного носителя информации, такого как цифровой носитель информации, например гибкий диск, DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-память, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель информации может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель информации (цифровой носитель информации или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель информации или носитель с записанными данными типично является материальным и/или постоянным.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Claims (79)

1. Аудиокодер для кодирования входных аудиоданных (101), чтобы получать выходные аудиоданные (501), содержащий:
входной интерфейс (100), выполненный с возможностью приема множества аудиоканалов, множества аудиообъектов и метаданных, связанных с одним или более из множества аудиообъектов;
микшер (200), выполненный с возможностью сведения множества объектов и множества каналов таким образом, чтобы получать множество предварительно сведенных каналов, причем каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта;
базовый кодер (300), выполненный с возможностью базового кодирования входных данных базового кодера; и
модуль (400) сжатия метаданных, выполненный с возможностью сжатия метаданных, связанных с одним или более из множества аудиообъектов,
при этом аудиокодер выполнен с возможностью работать в обоих режимах группы по меньшей мере из двух режимов, содержащих первый режим, в котором базовый кодер выполнен с возможностью кодировать множество аудиоканалов и множество аудиообъектов, принимаемых посредством входного интерфейса в качестве входных данных базового кодера, и второй режим, в котором базовый кодер (300) выполнен с возможностью приема, в качестве входных данных базового кодера, множества предварительно сведенных каналов, сформированных посредством микшера (200), и кодировать множество предварительно сведенных каналов.
2. Аудиокодер по п. 1, дополнительно содержащий:
кодер (800) пространственных аудиообъектов для формирования одного или более транспортных каналов и параметрических данных из входных данных кодера пространственных аудиообъектов,
при этом аудиокодер выполнен с возможностью дополнительно работать в третьем режиме, в котором базовый кодер (300) кодирует один или более транспортных каналов, извлекаемых из входных данных кодера пространственных аудиообъектов, причем входные данные кодера пространственных аудиообъектов содержат множество аудиообъектов или два или более из множества аудиоканалов.
3. Аудиокодер по п. 1, дополнительно содержащий:
кодер (800) пространственных аудиообъектов для формирования одного или более транспортных каналов и параметрических данных из входных данных кодера пространственных аудиообъектов,
при этом аудиокодер выполнен с возможностью дополнительно работать в еще одном дополнительном режиме, в котором базовый кодер кодирует транспортные каналы, извлекаемые посредством кодера (800) пространственных аудиообъектов из предварительно сведенных каналов в качестве входных данных кодера пространственных аудиообъектов.
4. Аудиокодер по п. 1, дополнительно содержащий модуль соединения для соединения вывода входного интерфейса (100) с вводом базового кодера (300) в первом режиме и для соединения вывода входного интерфейса (100) с вводом микшера (200) и соединения вывода микшера (200) с вводом базового кодера (300) во втором режиме, и
контроллер (600) режима для управления модулем соединения в соответствии с индикатором режима, принимаемым из пользовательского интерфейса или извлекаемым из входных аудиоданных (101).
5. Аудиокодер по п. 1, дополнительно содержащий:
выходной интерфейс (500) для предоставления выходного сигнала в качестве выходных аудиоданных (501), причем выходной сигнал содержит, в первом режиме, вывод базового кодера (300) и сжатые метаданные и содержит, во втором режиме, вывод базового кодера (300) без метаданных, и содержит, в третьем режиме, вывод базового кодера (300), вспомогательную SAOC-информацию и сжатые метаданные, и содержит, в еще одном дополнительном режиме, вывод базового кодера (300) и вспомогательную SAOC-информацию.
6. Аудиокодер по п. 1,
в котором микшер (200) выполнен с возможностью предварительного рендеринга множества аудиообъектов с использованием метаданных и индикатора относительно позиции каждого канала в компоновке для воспроизведения, с которой ассоциированы множество каналов,
при этом микшер (200) выполнен с возможностью сводить аудиообъект по меньшей мере с двумя аудиоканалами и с помощью этого далее с общим количеством аудиоканалов, когда аудиообъект должен быть размещен по меньшей мере между двумя аудиоканалами в компоновке для воспроизведения, как определено посредством метаданных.
7. Аудиокодер по п. 1,
дополнительно содержащий модуль (420) распаковки метаданных для распаковки сжатых метаданных, выводимых посредством модуля (400) сжатия метаданных, и
при этом микшер (200) выполнен с возможностью сводить множество объектов в соответствии с распакованными метаданными, при этом операция сжатия, выполняемая посредством модуля (400) сжатия метаданных, представляет собой операцию сжатия с потерями, содержащую этап квантования.
8. Аудиодекодер для декодирования кодированных аудиоданных, содержащий:
входной интерфейс (1100), выполненный с возможностью приема кодированных аудиоданных, причем кодированные аудиоданные содержат множество кодированных каналов или множество кодированных объектов либо сжатые метаданные, связанные с множеством кодированных объектов;
базовый декодер (1300), выполненный с возможностью декодирования множества кодированных каналов и множества кодированных объектов;
модуль (1400) распаковки метаданных, выполненный с возможностью распаковки сжатых метаданных,
процессор (1200) объектов, выполненный с возможностью обработки множества декодированных объектов с использованием распакованных метаданных, чтобы получать определенное число выходных каналов (1205), содержащих аудиоданные из объектов и декодированных каналов; и
постпроцессор (1700), выполненный с возможностью преобразования определенного числа выходных каналов (1205) в выходной формат,
при этом аудиодекодер выполнен с возможностью обходить процессор объектов и подавать множество декодированных каналов в постпроцессор (1700), когда кодированные аудиоданные не содержат кодированные аудиообъекты, и подавать множество декодированных объектов и множество декодированных каналов в процессор (1200) объектов, когда кодированные аудиоданные содержат кодированные каналы и кодированные объекты.
9. Аудиодекодер по п. 8, в котором постпроцессор (1700) выполнен с возможностью преобразовывать определенное число выходных каналов (1205) в бинауральное представление или в формат воспроизведения, имеющий меньшее число каналов относительно числа выходных каналов,
при этом аудиодекодер выполнен с возможностью управлять постпроцессором (1700) в соответствии с управляющим входом, извлекаемым из пользовательского интерфейса или извлеченным из кодированного аудиосигнала.
10. Аудиодекодер по п. 8, в котором процессор объектов содержит:
модуль рендеринга объектов для рендеринга декодированных объектов с использованием распакованных метаданных; и
микшер (1220) для сведения подготовленных посредством рендеринга объектов и декодированных каналов таким образом, чтобы получать определенное число выходных каналов (1205).
11. Аудиодекодер по п. 8, в котором процессор (1200) объектов содержит:
декодер по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов и ассоциированной параметрической вспомогательной информации, представляющей кодированные аудиообъекты, при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью подготавливать посредством рендеринга декодированные аудиообъекты в соответствии с информацией рендеринга, связанной с размещением аудиообъектов, и управлять процессором объектов таким образом, чтобы сводить подготовленные посредством рендеринга аудиообъекты и декодированные аудиоканалы, с тем чтобы получать определенное число выходных каналов (1205).
12. Аудиодекодер по п. 8, в котором процессор (1200) объектов содержит декодер (1800) по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов и ассоциированной параметрической вспомогательной информации, представляющей кодированные аудиообъекты и кодированные аудиоканалы,
при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью декодировать кодированные аудиообъекты и кодированные аудиоканалы с использованием одного или более транспортных каналов и параметрической вспомогательной информации, при этом процессор объектов выполнен с возможностью подготавливать посредством рендеринга множество аудиообъектов с использованием распакованных метаданных и декодировать каналы и сводить их с подготовленными посредством рендеринга объектами, с тем чтобы получать определенное число выходных каналов (1205).
13. Аудиодекодер по п. 8, в котором процессор (1200) объектов содержит декодер (1800) по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов и ассоциированной параметрической вспомогательной информации, представляющей кодированные аудиообъекты или кодированные аудиоканалы,
при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью транскодировать ассоциированную параметрическую информацию и распакованные метаданные в транскодированную параметрическую вспомогательную информацию, применимую для непосредственного рендеринга выходного формата, при этом постпроцессор (1700) выполнен с возможностью вычисления аудиоканалов выходного формата с использованием декодированных транспортных каналов и транскодированной параметрической вспомогательной информации, или
при этом декодер по стандарту пространственного кодирования аудиообъектов выполнен с возможностью непосредственно микшировать с повышением и подготавливать посредством рендеринга сигналы каналов для выходного формата с использованием декодированных транспортных каналов и параметрической вспомогательной информации.
14. Аудиодекодер по п. 8,
в котором процессор (1200) объектов содержит декодер по стандарту пространственного кодирования аудиообъектов для декодирования одного или более транспортных каналов, выводимых посредством базового декодера (1300), и ассоциированных параметрических данных и распакованных метаданных, чтобы получать множество подготовленных посредством рендеринга аудиообъектов,
при этом процессор (1200) объектов дополнительно выполнен с возможностью подготавливать посредством рендеринга декодированные объекты, выводимые посредством базового декодера (1300);
при этом процессор (1200) объектов дополнительно выполнен с возможностью сводить подготовленные посредством рендеринга декодированные объекты с декодированными каналами,
при этом аудиодекодер дополнительно содержит выходной интерфейс (1730) для вывода содержимого вывода микшера (1220) в громкоговорители,
при этом постпроцессор дополнительно содержит:
модуль бинаурального рендеринга для рендеринга выходных каналов в два бинауральных канала с использованием передаточных функций восприятия звука человеком или бинауральных импульсных характеристик, и
преобразователь (1720) форматов для преобразования выходных каналов в выходной формат, имеющий меньшее число каналов относительно выходных каналов микшера (1220), с использованием информации относительно схемы размещения для воспроизведения.
15. Аудиодекодер по п. 8,
в котором множество кодированных канальных элементов или множество кодированных аудиообъектов кодированы как элементы канальных пар, одноканальные элементы, низкочастотные элементы или четырехканальные элементы, при этом четырехканальный элемент содержит четыре исходных канала или объекта, и
при этом базовый декодер (1300) выполнен с возможностью декодировать элементы канальных пар, одноканальные элементы, низкочастотные элементы или четырехканальные элементы в соответствии со вспомогательной информацией, включенной в кодированные аудиоданные, указывающие элемент канальной пары, одноканальный элемент, низкочастотный элемент или четырехканальный элемент.
16. Аудиодекодер по п. 8,
в котором базовый декодер (1300) выполнен с возможностью применять операцию полнополосного декодирования с использованием операции заполнения шумом без операции репликации полос спектра.
17. Аудиодекодер по п. 14, в котором элементы, содержащие модуль (1710) бинаурального рендеринга, преобразователь (1720) форматов, микшер (1220), SAOC-декодер (1800) и базовый декодер (1300) и модуль (1210) рендеринга объектов, работают в области гребенки квадратурных зеркальных фильтров (QMF), при этом данные области квадратурных зеркальных фильтров передаются из одного из элементов в другой из элементов без обработки посредством гребенки синтезирующих фильтров и последующей обработки посредством гребенки аналитических фильтров.
18. Аудиодекодер по п. 8,
в котором постпроцессор (1700) выполнен с возможностью микшировать с понижением каналы, выводимые посредством процессора (1200) объектов, в формат, имеющий три или более канала и имеющий меньшее число каналов относительно числа выходных каналов (1205) процессора (1200) объектов, с тем чтобы получать промежуточное понижающее микширование и подготавливать посредством бинаурального рендеринга (1210) каналы промежуточного понижающего микширования в двухканальный бинауральный выходной сигнал.
19. Аудиодекодер по п. 8, в котором постпроцессор (1700) содержит:
управляемый понижающий микшер (1722) для применения матрицы понижающего микширования; и
контроллер (1724) для определения конкретной матрицы понижающего микширования с использованием информации относительно конфигурации каналов вывода процессора (1200) объектов и информации относительно намеченной схемы размещения для воспроизведения.
20. Аудиодекодер по п. 8,
в котором базовый декодер (1300) или процессор (1200) объектов являются управляемыми, и
в котором постпроцессор (1700) выполнен с возможностью управлять базовым декодером (1300) или процессором (1200) объектов в соответствии с информацией относительно выходного формата таким образом, что рендеринг, приводящий к обработке декорреляции объектов или каналов, не возникающих в качестве отдельных каналов в выходном формате, уменьшается или исключается, либо таким образом, что для объектов или каналов, не возникающих в качестве отдельных каналов в выходном формате, операции повышающего микширования или декодирования выполняются, как если объекты или каналы должны возникать в качестве отдельных каналов в выходном формате, за исключением того, что деактивируется обработка декорреляции для объектов или каналов, не возникающих в качестве отдельных каналов в выходном формате.
21. Аудиодекодер по п. 8,
в котором базовый декодер (1300) выполнен с возможностью осуществлять декодирование с преобразованием и декодирование на основе репликации полос спектра для одноканального элемента и выполнять декодирование с преобразованием, параметрическое стереодекодирование и декодирование для воспроизведения полосы спектра для элементов канальных пар и четырехканальных элементов.
22. Способ кодирования входных аудиоданных (101), чтобы получать выходные аудиоданные (501), содержащий этапы, на которых:
принимают (100) множество аудиоканалов, множество аудиообъектов и метаданные, связанные с одним или более из множества аудиообъектов;
сводят (200) множество объектов и множество каналов таким образом, чтобы получать множество предварительно сведенных каналов, причем каждый предварительно сведенный канал содержит аудиоданные канала и аудиоданные по меньшей мере одного объекта;
подвергают базовому кодированию (300) для базового кодирования входных данных; и
сжимают (400) метаданные, связанные с одним или более из множества аудиообъектов,
при этом способ кодирования входных аудиоданных работает в двух режимах группы из двух или более режимов, содержащих первый режим, в котором базовое кодирование кодирует множество аудиоканалов и множество аудиообъектов, принимаемых в качестве базового кодирования входных данных, и второй режим, в котором базовое кодирование (300) принимает, в качестве входных данных базового кодирования, множество предварительно сведенных каналов, сформированных посредством сведения (200), и подвергает базовому кодированию множество предварительно сведенных каналов.
23. Способ декодирования кодированных аудиоданных, содержащий этапы, на которых:
принимают (1100) кодированные аудиоданные, причем кодированные аудиоданные содержат множество кодированных каналов или множество кодированных объектов либо сжатые метаданные, связанные с множеством объектов;
подвергают базовому декодированию (1300) множество кодированных каналов и множество кодированных объектов;
распаковывают (1400) сжатые метаданные,
обрабатывают (1200) множество декодированных объектов с использованием распакованных метаданных, чтобы получать определенное число выходных каналов (1205), содержащих аудиоданные из объектов и декодированных каналов; и
преобразуют (1700) определенное число выходных каналов (1205) в выходной формат,
при этом в способе декодирования кодированных аудиоданных обработка (1200) множества декодированных объектов обходится, и множество декодированных каналов подается в постобработку (1700), когда кодированные аудиоданные не содержат аудиообъекты, и множество декодированных объектов и множество декодированных каналов подаются в обработку (1200) множества декодированных объектов, когда кодированные аудиоданные содержат кодированные каналы и кодированные объекты.
24. Постоянный носитель информации, содержащий сохраненную на нем компьютерную программу для осуществления при выполнении на компьютере или процессоре способа по п. 22 или 23.
RU2016105518A 2013-07-22 2014-07-16 Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов RU2641481C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EP13177378.0 2013-07-22
PCT/EP2014/065289 WO2015010998A1 (en) 2013-07-22 2014-07-16 Concept for audio encoding and decoding for audio channels and audio objects

Publications (2)

Publication Number Publication Date
RU2016105518A RU2016105518A (ru) 2017-08-25
RU2641481C2 true RU2641481C2 (ru) 2018-01-17

Family

ID=48803456

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016105518A RU2641481C2 (ru) 2013-07-22 2014-07-16 Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов

Country Status (18)

Country Link
US (3) US10249311B2 (ru)
EP (3) EP2830045A1 (ru)
JP (1) JP6268286B2 (ru)
KR (2) KR101979578B1 (ru)
CN (2) CN110942778B (ru)
AR (1) AR097003A1 (ru)
AU (1) AU2014295269B2 (ru)
BR (1) BR112016001143B1 (ru)
CA (1) CA2918148A1 (ru)
ES (1) ES2913849T3 (ru)
MX (1) MX359159B (ru)
PL (1) PL3025329T3 (ru)
PT (1) PT3025329T (ru)
RU (1) RU2641481C2 (ru)
SG (1) SG11201600476RA (ru)
TW (1) TWI566235B (ru)
WO (1) WO2015010998A1 (ru)
ZA (1) ZA201601076B (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2771954C2 (ru) * 2018-10-16 2022-05-16 Долби Лэборетериз Лайсенсинг Корпорейшн Способы и устройства для управления низкими звуковыми частотами
US11477601B2 (en) 2018-10-16 2022-10-18 Dolby Laboratories Licensing Corporation Methods and devices for bass management

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US20170086005A1 (en) * 2014-03-25 2017-03-23 Intellectual Discovery Co., Ltd. System and method for processing audio signal
MX2020011754A (es) 2015-10-08 2022-05-19 Dolby Int Ab Codificacion en capas para representaciones de sonido o campo de sonido comprimidas.
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US10386496B2 (en) * 2016-03-18 2019-08-20 Deere & Company Navigation satellite orbit and clock determination with low latency clock corrections
CN109478406B (zh) * 2016-06-30 2023-06-27 杜塞尔多夫华为技术有限公司 一种用于对多声道音频信号进行编解码的装置及方法
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
CN113242508B (zh) * 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
EP3605531B1 (en) 2017-03-28 2024-08-21 Sony Group Corporation Information processing device, information processing method, and program
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
EP3740950B8 (en) 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
JP7261807B2 (ja) * 2018-02-01 2023-04-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
EP3780628A1 (en) * 2018-03-29 2021-02-17 Sony Corporation Information processing device, information processing method, and program
CN115334444A (zh) 2018-04-11 2022-11-11 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
SG11202007629UA (en) 2018-07-02 2020-09-29 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding immersive audio signals
GB2578625A (en) 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
CN113168838A (zh) * 2018-11-02 2021-07-23 杜比国际公司 音频编码器及音频解码器
JP7468359B2 (ja) * 2018-11-20 2024-04-16 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
US12094476B2 (en) 2019-12-02 2024-09-17 Dolby Laboratories Licensing Corporation Systems, methods and apparatus for conversion from channel-based audio to object-based audio
CN113724717B (zh) * 2020-05-21 2023-07-14 成都鼎桥通信技术有限公司 车载音频处理系统、方法、车机控制器和车辆
CN114822564A (zh) * 2021-01-21 2022-07-29 华为技术有限公司 音频对象的比特分配方法和装置
KR20240024247A (ko) * 2021-07-29 2024-02-23 돌비 인터네셔널 에이비 객체-기반 오디오 및 채널-기반 오디오를 처리하기 위한 방법 및 장치
WO2023077284A1 (zh) * 2021-11-02 2023-05-11 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080234845A1 (en) * 2007-03-20 2008-09-25 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
RU2339088C1 (ru) * 2004-10-20 2008-11-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Индивидуальное формирование каналов для схем всс и т.п.
EP2479750A1 (en) * 2005-06-17 2012-07-25 DTS(BVI) Limited Method for hierarchically filtering an audio signal and method for hierarchically reconstructing time samples of an audio signal
US20120323584A1 (en) * 2007-06-29 2012-12-20 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal

Family Cites Families (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
EP1571768A3 (en) * 2004-02-26 2012-07-18 Yamaha Corporation Mixer apparatus and sound signal processing method
GB2417866B (en) 2004-09-03 2007-09-19 Sony Uk Ltd Data transmission
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
DE602006002501D1 (de) 2005-03-30 2008-10-09 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
CN101288116A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4966981B2 (ja) 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
ES2339888T3 (es) * 2006-02-21 2010-05-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
US7720240B2 (en) 2006-04-03 2010-05-18 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
US8326609B2 (en) * 2006-06-29 2012-12-04 Lg Electronics Inc. Method and apparatus for an audio signal processing
EP2337224B1 (en) 2006-07-04 2017-06-21 Dolby International AB Filter unit and method for generating subband filter impulse responses
WO2008039041A1 (en) 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
AU2007322488B2 (en) 2006-11-24 2010-04-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
JP5450085B2 (ja) 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
EP2595152A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
CN101542596B (zh) 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2394283C1 (ru) 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CA2645915C (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
ATE526663T1 (de) 2007-03-09 2011-10-15 Lg Electronics Inc Verfahren und vorrichtung zum verarbeiten eines audiosignals
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR101100213B1 (ko) 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP3712888B1 (en) 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
CN101743586B (zh) 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
MX2010004220A (es) 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
CN101868821B (zh) 2007-11-21 2015-09-23 Lg电子株式会社 用于处理信号的方法和装置
KR100998913B1 (ko) 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2796552T3 (es) 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR101108060B1 (ko) 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
WO2010087627A2 (en) 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
KR101433701B1 (ko) * 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102449689B (zh) 2009-06-03 2014-08-06 日本电信电话株式会社 编码方法、编码装置、编码程序、以及它们的记录介质
TWI404050B (zh) * 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5678048B2 (ja) 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
ES2793958T3 (es) 2009-08-14 2020-11-17 Dts Llc Sistema para trasmitir adaptativamente objetos de audio
AU2010303039B9 (en) 2009-09-29 2014-10-23 Dolby International Ab Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
PL2491551T3 (pl) 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
CN108989721B (zh) * 2010-03-23 2021-04-16 杜比实验室特许公司 用于局域化感知音频的技术
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
WO2012012544A1 (en) 2010-07-20 2012-01-26 Owens Corning Intellectual Capital, Llc Flame retardant polymer jacket
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI759223B (zh) 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
CN103460285B (zh) 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
US9754595B2 (en) * 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
EP2727383B1 (en) * 2011-07-01 2021-04-28 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
JP5798247B2 (ja) 2011-07-01 2015-10-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
IN2014CN03413A (ru) 2011-11-01 2015-07-03 Koninkl Philips Nv
EP2973551B1 (en) * 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2339088C1 (ru) * 2004-10-20 2008-11-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Индивидуальное формирование каналов для схем всс и т.п.
EP2479750A1 (en) * 2005-06-17 2012-07-25 DTS(BVI) Limited Method for hierarchically filtering an audio signal and method for hierarchically reconstructing time samples of an audio signal
US20080234845A1 (en) * 2007-03-20 2008-09-25 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
US20120323584A1 (en) * 2007-06-29 2012-12-20 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2771954C2 (ru) * 2018-10-16 2022-05-16 Долби Лэборетериз Лайсенсинг Корпорейшн Способы и устройства для управления низкими звуковыми частотами
US11477601B2 (en) 2018-10-16 2022-10-18 Dolby Laboratories Licensing Corporation Methods and devices for bass management
RU2826540C1 (ru) * 2020-10-13 2024-09-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ кодирования множества аудиообъектов с использованием информации направления во время понижающего микширования или устройство и способ декодирования с использованием оптимизированного ковариационного синтеза

Also Published As

Publication number Publication date
CA2918148A1 (en) 2015-01-29
MX2016000910A (es) 2016-05-05
KR20160033769A (ko) 2016-03-28
JP2016525715A (ja) 2016-08-25
CN110942778A (zh) 2020-03-31
US11227616B2 (en) 2022-01-18
CN105612577B (zh) 2019-10-22
KR20180019755A (ko) 2018-02-26
PL3025329T3 (pl) 2022-07-18
PT3025329T (pt) 2022-06-24
WO2015010998A1 (en) 2015-01-29
AU2014295269B2 (en) 2017-06-08
EP3025329A1 (en) 2016-06-01
EP4033485B1 (en) 2024-10-16
US10249311B2 (en) 2019-04-02
JP6268286B2 (ja) 2018-01-24
US20190180764A1 (en) 2019-06-13
ZA201601076B (en) 2017-08-30
MX359159B (es) 2018-09-18
RU2016105518A (ru) 2017-08-25
US20220101867A1 (en) 2022-03-31
KR101943590B1 (ko) 2019-01-29
EP4033485A1 (en) 2022-07-27
BR112016001143B1 (pt) 2022-03-03
US11984131B2 (en) 2024-05-14
EP2830045A1 (en) 2015-01-28
TWI566235B (zh) 2017-01-11
BR112016001143A2 (ru) 2017-07-25
KR101979578B1 (ko) 2019-05-17
ES2913849T3 (es) 2022-06-06
CN110942778B (zh) 2024-07-02
EP3025329B1 (en) 2022-03-23
US20160133267A1 (en) 2016-05-12
CN105612577A (zh) 2016-05-25
SG11201600476RA (en) 2016-02-26
TW201528252A (zh) 2015-07-16
AR097003A1 (es) 2016-02-10
AU2014295269A1 (en) 2016-03-10

Similar Documents

Publication Publication Date Title
RU2641481C2 (ru) Принцип для кодирования и декодирования аудио для аудиоканалов и аудиообъектов
US11488610B2 (en) Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
AU2014295216B2 (en) Apparatus and method for enhanced spatial audio object coding