RU2452043C2 - Аудиокодирование с использованием понижающего микширования - Google Patents

Аудиокодирование с использованием понижающего микширования Download PDF

Info

Publication number
RU2452043C2
RU2452043C2 RU2010114875/08A RU2010114875A RU2452043C2 RU 2452043 C2 RU2452043 C2 RU 2452043C2 RU 2010114875/08 A RU2010114875/08 A RU 2010114875/08A RU 2010114875 A RU2010114875 A RU 2010114875A RU 2452043 C2 RU2452043 C2 RU 2452043C2
Authority
RU
Russia
Prior art keywords
signal
type
audio signal
audio
downmix
Prior art date
Application number
RU2010114875/08A
Other languages
English (en)
Other versions
RU2010114875A (ru
Inventor
Оливер ХЕЛЛЬМУТ (DE)
Оливер ХЕЛЛЬМУТ
Юрген ХЕРРЕ (DE)
Юрген ХЕРРЕ
Леонид ТЕРЕНТЬЕВ (DE)
Леонид ТЕРЕНТЬЕВ
Андреас ХЁЛЬЦЕР (DE)
Андреас ХЁЛЬЦЕР
Корнелия ФАЛЧ (DE)
Корнелия ФАЛЧ
Йоханнес ХИЛПЕРТ (DE)
Йоханнес ХИЛПЕРТ
Original Assignee
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40149576&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2452043(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Publication of RU2010114875A publication Critical patent/RU2010114875A/ru
Application granted granted Critical
Publication of RU2452043C2 publication Critical patent/RU2452043C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении эффективного разделения индивидуальных объектов в многообъектном звуковом сигнале. Звуковой декодер для декодирования многообъектного звукового сигнала имеет звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем; многообъектный звуковой сигнал состоит из сигнала понижающего микширования и дополнительной информации; дополнительная информация включает информацию об уровне звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении, и остаточный сигнал определяет величины остаточного уровня во втором предопределенном временном/частотном разрешении, включает средство для вычисления коэффициентов предсказания, основанное на информации об уровне; и средство для повышающего микширования сигнала понижающего микширования, основанное на коэффициентах предсказания и остаточном сигнале, для получения первого звукового сигнала повышающего микширования, приближающегося к звуковому сигналу первого типа и/или второго звукового сигнала повышающего микширования, приближающегося к звуковому сигналу второго типа. 7 н. и 18 з.п. ф-лы, 24 ил.

Description

Данная заявка имеет отношение к звуковому кодированию, использующему понижающее микширование сигналов.
Было предложено много алгоритмов звукового кодирования, чтобы эффективно закодировать или сжать звуковые данные одного канала, то есть монозвуковые сигналы. Используя психоакустику, звуковые образцы соответственно масштабированы, квантованы или даже установлены на ноль, чтобы удалить ненужное из, например, РСМ (импульсно-кодовая модуляция) закодированного звукового сигнала. Выполняется также удаление избыточности.
В качестве следующего шага используется подобие между левым и правым каналом звуковых стереосигналов, чтобы эффективно кодировать/сжимать звуковые стереосигналы.
Однако поступающие заявки излагают дальнейшие требования к алгоритмам звукового кодирования. Например, в телеконференциях, компьютерных играх, исполнении музыки и т.п. несколько звуковых сигналов, которые частично или даже полностью некоррелированные, должны быть переданы параллельно. Чтобы поддерживать необходимую скорость передачи битов для кодирования этих звуковых сигналов достаточно низкой, чтобы соответствовать требованиям низкоскоростной битовой передачи, недавно были предложены звуковые кодер-декодеры, которые микшируют с понижением многократные входные звуковые сигналы в сигнал понижающего микширования, такой как стерео- или даже моносигнал понижающего микширования. Например, MPEG (Экспертная группа по кинематографии) Стандарт объемного звучания микширует с понижением входные каналы в сигнал понижающего микширования способом, предписанным стандартом. Понижающее микширование выполняется при помощи так называемого ОТТ-1 (один-к-двум) и ТТТ-1 (два-к-трем) блока для понижающего микширования двух сигналов в один и трех сигналов в два соответственно. Чтобы микшировать с понижением более трех сигналов, используется иерархическая структура этих блоков. Каждый блок ОТТ-1, помимо моносигнала понижающего микширования, выводит разность уровней каналов между двумя входными каналами, так же как межканальные параметры когерентной/взаимной корреляции, представляющие когерентную или взаимную корреляцию между двумя входными каналами. Параметры выводятся наряду с сигналом понижающего микширования MPEG кодера объемного звучания в пределах MPEG объемного потока данных. Точно так же каждый блок ТТТ-1 передает коэффициенты предсказания канала, позволяющие восстановить три входных канала из получающегося стереосигнала понижающего микширования. Коэффициенты предсказания канала также передаются как дополнительная информация в пределах MPEG объемного потока данных. MPEG декодер объемного звучания микширует с повышением сигнал понижающего микширования при помощи переданной дополнительной информации и восстанавливает его; оригинальные каналы входят в MPEG кодирующее устройство объемного звучания.
Однако MPEG объемное звучание, к сожалению, не отвечает всем требованиям, изложенным во многих заявках. Например, MPEG декодер объемного звучания предназначен для повышающего микширования сигнала понижающего микширования MPEG кодирующего устройства объемного звучания таким образом, что входные каналы MPEG кодирующего устройства объемного звучания восстанавливаются, как они есть. Другими словами, MPEG объемный поток данных предназначен для его воспроизведения при помощи конфигурации громкоговорителя, используемой для кодирования.
Однако согласно некоторым выводам было бы полезно, если бы конфигурация громкоговорителя могла бы быть изменена на стороне декодера.
Чтобы соответствовать последним требованиям, в настоящее время разрабатывается кодирующий стандарт пространственного звукового объекта (SAOC). Каждый канал рассматривается как индивидуальный объект, и все объекты микшируются с понижением в сигнал понижающего микширования. Однако, кроме того, индивидуальные объекты могут также включать индивидуальные звуковые источники, например инструменты или речевые каналы. Однако в отличие от MPEG декодера объемного звучания декодер SAOC способен индивидуально микшировать с повышением сигнал понижающего микширования, чтобы воспроизводить индивидуальные объекты на любой конфигурации громкоговорителя. Чтобы позволить декодеру SAOC восстанавливать закодированные индивидуальные объекты в потоке данных SAOC, различия уровней объекта и для объектов, создающих вместе стерео (или многоканальный) сигнал, параметры межобъектной взаимной корреляции передаются как дополнительная информация в пределах SAOC битового потока. Помимо этого, SAOC декодер/транскодер обеспечивается информацией о том, как индивидуальные объекты были понижающее микшированы в сигнал понижающего микширования. Таким образом, на стороне декодера можно восстанавливать индивидуальные каналы SAOC и выводить эти сигналы на любую конфигурацию громкоговорителя, используя предоставляемую информацию, контролируемую пользователем.
Однако, хотя кодер-декодер SAOC был разработан для индивидуального управления звуковыми объектами, некоторые заявки предъявляют более высокие требования. Например, применение для режима Караоке требует полного отделения фонового звукового сигнала от звукового сигнала переднего плана или звуковых сигналов переднего плана. Наоборот, в сольном режиме объекты переднего плана должны быть отделены от фоновых объектов. Однако вследствие равной обработки индивидуальных звуковых объектов было невозможно полностью удалить фоновые объекты или объекты переднего плана соответственно из сигнала понижающего микширования.
Таким образом, цель данного изобретения - обеспечить звуковой кодер-декодер, используя понижающее микширование звуковых сигналов таким образом, чтобы достигнуть наилучшего разделения индивидуальных объектов, таких как, например, применимые в режиме Караоке/соло.
Эта цель достигается посредством звукового декодера по п.1, звукового кодирующего устройства по п.18, способа декодирования по п.20, способа кодирования по п.21 и многообъектного звукового сигнала по п.23.
Со ссылкой на чертежи предпочтительные осуществления данного применения описаны более подробно.
Фиг.1 показывает блок-схему компоновки кодирующего устройства/декодера SAOC, в которой могут быть реализованы осуществления данного изобретения;
Фиг.2 показывает схематическую и иллюстративную диаграмму спектрального представления монозвукового сигнала;
Фиг.3 показывает блок-схему звукового декодера согласно осуществлению данного изобретения;
Фиг.4 показывает блок-схему звукового кодирующего устройства согласно осуществлению данного изобретения;
Фиг.5 показывает блок-схему компоновки звукового кодирующего устройства/декодера для использования в режиме Караоке/соло, как сравнительное осуществление;
Фиг.6 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно осуществлению;
Фиг.7а показывает блок-схему звукового кодирующего устройства для применения в режиме Караоке/соло согласно сравнительному осуществлению;
Фиг.7b показывает блок-схему звукового кодирующего устройства для применения в режиме Караоке/соло согласно осуществлению;
Фиг.8а и b показывают графики результатов качественных измерений;
Фиг.9 показывает блок-схему компоновки звукового кодирующего устройства /декодера для применения в режиме Караоке/соло в целях сравнения;
Фиг.10 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно осуществлению;
Фиг.11 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно дальнейшему осуществлению;
Фиг.12 показывает блок-схему компоновки звукового кодирующего устройства/декодера для применения в режиме Караоке/соло согласно дальнейшему осуществлению;
Фиг.13a-h показывает таблицы, отражающие возможный синтаксис для SOAC битового потока согласно осуществлению данного изобретения;
Фиг.14 показывает блок-схему звукового декодера для применения в режиме Караоке/соло согласно осуществлению; и
Фиг.15 показывает таблицу, отражающую возможный синтаксис для передачи информации о количестве данных, потраченных на передачу остаточного сигнала.
Прежде чем осуществления данного изобретения будут описаны более подробно, предоставляются кодер-декодер SAOC и параметры SAOC, переданные в SAOC битовый поток, чтобы облегчить понимание определенных осуществлений, более детально обрисованных в дальнейшем.
Фиг.1 показывает общую компоновку кодирующего устройства SAOC 10 и декодера SAOC 12. Кодирующее устройство SAOC 10 получает в качестве входа N объекты, то есть звуковые сигналы 141-14N. В частности, кодирующее устройство 10 включает понижающий микшер 16, который получает звуковые сигналы 141-14N и микширует с понижением их же до сигнала понижающего микширования 18. На фиг.1 сигнал понижающего микширования, например, показан как стереосигнал понижающего микширования. Однако возможен также моносигнал понижающего микширования. Каналы стереосигнала понижающего микширования 18 обозначены L0 и R0, в случае монопонижающего микширования то же самое обозначается просто L0. Чтобы обеспечить декодеру SAOC 12 возможность восстанавливать индивидуальные объекты 141-14N, понижающий микшер 16 предоставляет декодеру SAOC 12 дополнительную информацию, включая SAOC-параметры, в том числе разности уровней объекта (OLD), параметры межобъектной взаимной корреляции (IOC), коэффициенты усиления понижающего микширования (DMG) и разности уровней канала понижающего микширования (DCLD). Дополнительная информация 20, включая SAOC-параметры, наряду с сигналом понижающего микширования 18 формирует выходной поток данных SAOC, полученный декодером SAOC 12.
Декодер SAOC 12 включает повышающий микшер 22, который получает сигнал понижающего микширования 18, а также и дополнительную информацию 20, чтобы восстанавливать и передавать звуковые сигналы 141 и 14N на любой выбранный пользователем ряд каналов 241-24M с предоставлением предписанной предоставляемой информации 26, вводимой в декодер SAOC 12.
Звуковые сигналы 141-14N могут быть введены в понижающий микшер 16 в любую кодирующую область, такую как, например, временная или спектральная область. В случае, если звуковые сигналы 141-14N подаются в понижающий микшер 16 во временную область, такую как закодированный РСМ, понижающий микшер 16 использует блок фильтров, такой как гибридный блок QMF (квадратурный зеркальный фильтр), то есть блок комплексных экспоненциально смодулированных фильтров с расширением фильтра по Найквисту для самых низких частотных диапазонов, чтобы увеличить там частотное разрешение, чтобы передавать сигналы в спектральную область, в которой звуковые сигналы представлены в нескольких поддиапазонах, связанных с различными спектральными частями, при определенном разрешении блока фильтров. Если звуковые сигналы 141-14N уже находятся в представлении, ожидаемом понижающим микшером 16, спектральное разложение не должно выполняться.
Фиг.2 показывает звуковой сигнал в только что упомянутой спектральной области. Можно заметить, что звуковой сигнал представлен как множество сигналов поддиапазона. Каждый сигнал поддиапазона 301-30P состоит из последовательности значений поддиапазонов, обозначенных маленькими прямоугольниками 32. Как видно, значения поддиапазонов 32 сигналов поддиапазонов 301-30P синхронизированы друг с другом во времени так, чтобы для каждой последовательной временной области блока фильтров 34 каждый поддиапазон 301-30P включал одно точное значение поддиапазона 32. Как показано посредством частотной оси 36, сигналы поддиапазонов 301-30P связаны с различными частотными областями и, как показано посредством временной оси 38, временные области блока фильтров 34 последовательно организованы во времени.
Как в общих чертах обрисовано выше, понижающий микшер 16 вычисляет SAOC-параметры из входных звуковых сигналов 141-14N. Понижающий микшер 16 выполняет это вычисление в частотном/временном разрешении, которое может быть уменьшено относительно оригинального частотного/временного разрешения, как определено временными областями блока фильтров 34 и разложением поддиапазона, на определенную величину, при этом эта определенная величина передается на декодер в рамках дополнительной информации 20 посредством соответствующих элементов синтаксиса bsFrameLength и bsFreqRes. Например, группы последовательных временных областей блока фильтров 34 могут сформировать структуру 40. Другими словами, звуковой сигнал может быть разделен на структуры, накладывающиеся во времени или являющиеся непосредственно смежными во времени, например. В этом случае bsFrameLength может определять число параметрических временных областей 41, то есть единиц времени, в которых параметры SAOC, такие как OLD и IOC, вычисляются в SAOC структуре 40, а bsFreqRes может определять число оперативных частотных диапазонов, для которых вычисляются SAOC параметры. Посредством этого каждая структура разделяется на частотные/временные элементы, проиллюстрированные на фиг.2 пунктирными линиями 42.
Понижающий микшер 16 вычисляет параметры SAOC в соответствии со следующими формулами. В частности, понижающий микшер 16 вычисляет разности уровней объекта для каждого объекта i как
Figure 00000001
где суммы и индексы n и k соответственно проходят через все временные области блока фильтров 34, и все поддиапазоны блока фильтров 30, которые принадлежат определенному частотному/временному элементу 42. Таким образом, энергии всех значений поддиапазона xi звукового сигнала или объекта i суммируются и нормализуются до самого высокого значения энергии этого элемента среди всех объектов или звуковых сигналов.
Далее, SAOC понижающий микшер 16 может вычислять меру подобия соответствующих частотных/временных элементов пар различных входных объектов 141-14N. Хотя SAOC понижающий микшер 16 может вычислять меру подобия между всеми парами входных объектов 141-14N, понижающий микшер 16 может также подавлять передачу сигналов меры подобия или ограничивать вычисление мер подобия для звуковых объектов 141-14N, которые формируют левый или правый каналы общего стереоканала. В любом случае, мерой подобия называется параметр межобъектной взаимной корреляции IOCi,j. Вычисление выглядит следующим образом
Figure 00000002
где снова индексы n и k проходят через все значения поддиапазонов, принадлежащих определенному частотному/временному элементу 42, а i и j обозначают определенную пару звуковых объектов 141-14N.
Понижающий микшер 16 микширует с понижением объекты 141-14N при помощи коэффициентов усиления, применяемых к каждому объекту 141-14N. Таким образом, коэффициент усиления Di применяется к объекту i и затем все взвешенные таким образом объекты 141-14N суммируются, чтобы получить моносигнал понижающего микширования. В случае стереосигнала понижающего микширования, как показано на фиг.1, коэффициент усиления D1, i применяется к объекту i, и затем все такие усиленные объекты суммируются, чтобы получить левый канал понижающего микширования L0, а коэффициенты усиления D2,i, применяется к объекту i, и затем усиленные таким образом объекты суммируются, чтобы получить правый канал понижающего микширования R0.
Это предписание понижающего микширования сообщается декодеру посредством коэффициентов усиления понижающего микширования DMGi, а в случае понижающего микширования стереосигнала посредством разности уровней каналов понижающего микширования DCLDi.
Коэффициенты усиления понижающего микширования вычисляются согласно:
DMGi=20log10 (Di+ε), (монопонижающее микширование),
Figure 00000003
, (стереопонижающее микширование),
где ε - маленькое число, такое как 10-9.
Для DCLDs применяется следующая формула:
Figure 00000004
.
В нормальном режиме понижающий микшер 16 производит сигнал понижающего микширования согласно:
Figure 00000005
для монопонижающего микширования или
Figure 00000006
для стереопонижающего микширования соответственно.
Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией звуковых сигналов, а параметры DMG и DCLD - функция D. Между прочим, замечено, что D может изменяться во времени.
Таким образом, в нормальном режиме понижающий микшер 16 смешивает все объекты 141-14N без предпочтения, то есть с одинаковой обработкой всех объектов 141-14N.
Повышающий микшер 22 выполняет инверсию процедуры понижающего микширования и реализует «предоставляемую информацию», представленную матрицей А в одном этапе вычисления, а именно
Figure 00000007
,
где матрица Е является функцией параметров OLD и IOC.
Другими словами, в нормальном режиме не выполняется никакая классификация объектов 141-14N на BGO, то есть фоновый объект, или FGO, то есть объект переднего плана. Информация, относительно которой объект должен быть представлен на выходе повышающего микшера 22, должна предоставляться передающей матрицей А. Если, например, объект с индексом 1 - левый канал фонового стерео объекта, объект с индексом 2 - его правый канал, а объект с индексом 3 - объект переднего плана, то передающая матрица А будет
Figure 00000008
чтобы произвести выходной сигнал типа караоке.
Однако, как уже было указано выше, передавая BGO и FGO при помощи этого нормального режима, кодер-декодер SAOC не достигает приемлемых результатов.
Фиг.3 и 4 описывают осуществление данного изобретения, которое преодолевает только что описанный недостаток. Декодер и кодирующее устройство, описанное на этих Фиг., и связанные с ними функциональные возможности могут представлять дополнительный режим, такой как «расширенный режим», в который кодер-декодер SAOC фиг.1 может быть переключен. Примеры последней возможности будут представлены в дальнейшем.
Фиг.3 показывает декодер 50. Декодер 50 включает средство 52 для вычисления коэффициентов предсказания и средство 54 для повышающего микширования сигнала понижающего микширования.
Звуковой декодер 50 фиг.3 предназначен для декодирования многообъектного звукового сигнала, имеющего звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем. Звуковой сигнал первого типа и звуковой сигнал второго типа могут быть соответственно моно- или стереозвуковым сигналом. Звуковой сигнал первого типа, например фоновый объект, тогда как звуковой сигнал второго типа - объект переднего плана. Таким образом, осуществление фиг.3 и фиг.4 не обязательно ограничено применением в режиме Караоке/соло. Скорее декодер фиг.3 и кодирующее устройство фиг.4 могут преимущественно использоваться в где-то еще.
Многообъектный звуковой сигнал состоит из сигнала понижающего микширования 56 и дополнительной информации 58. Дополнительная информация 58 включает информацию об уровне 60, описывающую, например, спектральные энергии звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном частотном/временном разрешении, таком как, например, частотное/временное разрешение 42. В частности, информация об уровне 60 может включать нормализованное спектральное скалярное значение энергии на объект и временной/частотный элемент. Нормализация может быть связана с самым высоким спектральным значением энергии среди звуковых сигналов первого и второго типа в соответствующем временном/частотном элементе. Последняя возможность приводит к OLDs для предоставления информации об уровне, здесь также называемой информацией о разности уровней. Хотя следующие осуществления используют OLDs, они могут, хотя это не однозначно установлено, использовать иначе нормализованное спектральное представление энергии.
Дополнительная информация 58 включает также остаточный сигнал 62, определяющий остаточные значения уровня во втором предопределенном временном/частотном разрешении, которое может быть равным или может отличаться от первого предопределенного временного/частотного разрешения.
Средство 52 для вычисления коэффициентов предсказания формируется для вычисления коэффициентов предсказания на основе информации об уровне 60. Дополнительно, средство 52 может вычислять коэффициенты предсказания, далее основанные на информации о межкорреляции, также состоящей из дополнительной информации 58. Далее, средство 52 может использовать предписанную информацию о зависящем от времени понижающем микшировании, состоящую из дополнительной информации 58, чтобы вычислять коэффициенты предсказания. Коэффициенты предсказания, вычисленные средством 52, необходимы для поиска или повышающего микширования оригинальных звуковых объектов или звуковых сигналов из сигнала понижающего микширования 56.
Соответственно, средство 54 для повышающего микширования формируется для выполнения повышающего микширования сигнала понижающего микширования 56 на основе коэффициентов предсказания 64, полученных из средства 52 и остаточного сигнала 62. Используя остаточный сигнал 62, декодер 50 может лучше подавлять передачу ненужных данных от звукового сигнала одного типа к звуковому сигналу другого типа. В дополнение к остаточному сигналу 62 средство 54 может использовать зависящее от времени понижающее микширование, чтобы микшировать с повышением сигнал понижающего микширования. Далее, средство 54 для повышающего микширования может использовать пользовательский вход 66, чтобы решить, какой из звуковых сигналов восстановлен из сигнала понижающего микширования 56, который будет фактически произведен на выходе 68, или до какой степени. В качестве первого экстремального значения пользовательский вход 66 может указывать средству 54 производить только первый сигнал повышающего микширования, приближающийся к звуковому сигналу первого типа. Противоположное верно для второго экстремального значения согласно тому, какое из средств 54 должно произвести только второй сигнал повышающего микширования, приближающийся к звуковому сигналу второго типа. Возможны также промежуточные варианты согласно которым смесь обоих сигналов повышающего микширования предоставляет выход на выходе 68.
Фиг.4 показывает осуществление для звукового кодирующего устройства для производства многообъектного звукового сигнала, расшифрованного декодером фиг.3. Кодирующее устройство фиг.4, которое обозначено ссылочным номером 80, может включать средство 82 для спектрального разложения в случае, если звуковые сигналы 84 должны быть закодированы, не находятся в пределах спектральной области. Среди звуковых сигналов 84, в свою очередь, имеется, по крайней мере, один звуковой сигнал первого типа и, по крайней мере, один звуковой сигнал второго типа. Средство 82 для спектрального разложения формируется, чтобы спектрально разложить каждый из этих сигналов 84 в представлении, как показано на фиг.2, например. Таким образом, средство 82 для спектрального разложения спектрально разлагает звуковой сигнал 84 в предопределенном временном/частотном разрешении. Средство 82 может включать блок фильтров, такой как гибридный блок QMF.
Звуковое кодирующее устройство 80 далее включает средство 86 для вычисления информации об уровне, средство 88 для понижающего микширования, средство 90 для вычисления коэффициентов предсказания и средство 92 для регулирования остаточного сигнала. Дополнительно, звуковое кодирующее устройство 80 может включать средство для вычисления информации о межкорреляции, а именно средство 94. Средство 86 вычисляет информацию об уровне, описывающую уровень звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении из звукового сигнала как произвольно произведенное средством 82. Точно так же средство 88 микширует с понижением звуковые сигналы. Средство 88, таким образом, производит сигнал понижающего микширования 56. Средство 86 также производит информацию об уровне 60. Средство 90 для вычисления коэффициентов предсказания действует так же, как средство 52. Таким образом, средство 90 вычисляет коэффициенты предсказания из информации об уровне 60 и производит коэффициенты предсказания 64 для средства 92. Средство 92, в свою очередь, устанавливает остаточный сигнал 62, основанный на сигнале понижающего микширования 56, коэффициентах предсказания 64 и оригинальных звуковых сигналах во втором предопределенном временном/частотном разрешении таким образом, что повышающее микширование сигнала понижающего микширования 56, основанное и на коэффициентах предсказания 64 и на остаточном сигнале 62, приводит к первому звуковому сигналу повышающего микширования, приближенному к звуковому сигналу первого типа, и ко второму звуковому сигналу повышающего микширования, приближенному к звуковому сигналу второго типа; согласованное приближение сравнимо с отсутствием остаточного сигнала 62.
Остаточный сигнал 62 и информация об уровне 60 состоят из дополнительной информации 58, которая формирует, наряду с сигналом понижающего микширования 56 многообъектный звуковой сигнал, подлежащий расшифровке декодером фиг.3.
Как показано на фиг.4 и аналогично описанию фиг.3, средство 90 может дополнительно использовать информацию о межкорреляции, произведенную средством 94, и/или зависящее от времени предписание понижающего микширования, произведенное средством 88, чтобы вычислить коэффициент предсказания 64. Далее, средство 92 для регулирования остаточного сигнала 62 может дополнительно использовать зависящее от времени предписание понижающего микширования, произведенное средством 88, чтобы надлежащим образом установить остаточный сигнал 62.
Следует снова отметить, что звуковой сигнал первого типа может быть моно- или стереозвуковым сигналом. То же самое касается звукового сигнала второго типа. Остаточный сигнал 62 может быть передан в рамках дополнительной информации в том же самом временном/частотном разрешении, поскольку параметр временного/частотного разрешения используется для вычисления, например, информации об уровне, или может использовать другое временное/частотное разрешение. Далее, вполне возможно, что передача остаточного сигнала ограничена подчастью спектрального диапазона, занятого временными/частотными элементами 42, для которых передается информация об уровне. Например, временное/частотное разрешение, в котором передается остаточный сигнал, может быть обозначено в рамках дополнительной информации 58 при помощи элементов синтаксиса bsResidualBands и bsResidualFramesPerSAOCFrame. Эти два элемента синтаксиса могут определить другое подразделение структуры на элементы времени/частоты, чем подразделение, имеющее результатом элементы 42.
Между прочим, следует заметить, что остаточный сигнал 62 может отражать, а может и не отражать потерю информации в результате потенциально используемого основного кодирующего устройства 96, используемого по выбору для кодирования сигнала понижающего микширования 56 звуковым кодирующим устройством 80. Как показано на фиг.4, средство 92 может выполнять регулирование остаточного сигнала 62 на основе версии сигнала понижающего микширования, реконструируемого из выхода основного кодирующего устройства 96 или версии из входа в основное кодирующее устройство 96'. Точно так же звуковой декодер 50 может включать основной декодер 98 для расшифровки или разворачивания сигнала понижающего микширования 56.
Способность устанавливать в пределах многообъектного звукового сигнала временное/частотное разрешение, используемое для вычисления остаточного сигнала 62, отличающегося от временного/частотного разрешения, используемого для вычисления информации об уровне 60, позволяет достигнуть хорошего компромисса между качеством звука с одной стороны и степенью сжатия многообъектного звукового сигнала с другой стороны. В любом случае, остаточный сигнал 62 позволяет обеспечить лучшее подавление выдачи ненужных данных от одного звукового сигнала до другого в пределах первого и второго сигналов повышающего микширования, которые будут произведены на выходе 68 в соответствии с пользовательским входом 66.
Как станет ясным из следующего осуществления, более одного остаточного сигнала 62 может быть передано в рамках дополнительной информации в случае, если закодировано более одного объекта переднего плана или звуковой сигнал второго типа. Дополнительная информация может учитывать индивидуальное решение относительно того, передавать ли остаточный сигнал 62 для определенного звукового сигнала второго типа или нет. Таким образом, число остаточных сигналов 62 может меняться от одного до нескольких звуковых сигналов второго типа.
В звуковом декодере Фиг.3 средство 54 для вычисления может формироваться, чтобы вычислять матрицу коэффициента предсказания С, состоящую из коэффициентов предсказания, основанных на информации об уровне (OLD), а средство 56 может формироваться, чтобы выдать первый сигнал повышающего микширования S1, и/или второй сигнал повышающего микширования S2 из сигнала понижающего микширования d согласно вычислению, представленному здесь
Figure 00000009
,
где эти "1" обозначает - в зависимости от числа каналов d-скаляр, или матрицу идентичности, и D-1-матрица, однозначно определенная в соответствии с предписанием понижающего микширования, согласно которому звуковой сигнал первого типа и звуковой сигнал второго типа микшируются с понижением в сигнал понижающего микширования и который также состоит из дополнительной информации, и Н-член, являющийся независимым от d, но зависящий от остаточного сигнала.
Как отмечено выше и будет описано ниже, предписание понижающего микширования может изменяться во времени и/или может спектрально изменяться в рамках дополнительной информации. Если звуковой сигнал первого типа является стерео звуковым сигналом, имеющим первый (L) и второй входной канал (R), информация об уровне, например, описывает нормализованные спектральные энергии первого входного канала (L), второго входного канала (R) и звуковой сигнал второго типа, соответственно, при временном/частотном разрешении 42.
Вышеупомянутое вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может даже быть представлено следующим образом
Figure 00000010
,
где
Figure 00000011
- первый канал первого сигнала повышающего микширования, приближающийся к L, и
Figure 00000012
-второй канал первого сигнала повышающего микширования, приближающийся к R, и «1» - скаляр в случае, если d моно, и 2×2 матрица идентичности в случае, если d - стерео. Если сигнал понижающего микширования 56 является стерео звуковым сигналом, имеющим первый (L0) и второй выходной канал (R0), и вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может быть представлено следующим образом
Figure 00000013
.
Так как член Н, зависящий от остаточного сигнала, связан с res, вычисление, согласно которому средство 56 для повышающего микширования выполняет повышающее микширование, может быть представлено следующим образом
Figure 00000014
.
Многообъектный звуковой сигнал может даже включать множество звуковых сигналов второго типа, а дополнительная информация может включать один остаточный сигнал на звуковой сигнал второго типа. Параметр остаточного разрешения может присутствовать в дополнительной информации, определяющей спектральный диапазон, по которому остаточный сигнал передается в рамках дополнительной информации. Он может даже определять нижний и верхний предел спектрального диапазона.
Далее, многообъектный звуковой сигнал может также включать пространственную предоставляемую информацию для пространственной передачи звукового сигнала первого типа на предопределенную конфигурацию громкоговорителя. Другими словами, звуковой сигнал первого типа может быть многоканальным (больше чем два канала) MPEG Объемное звучание сигналом, смикшированным с понижением до стерео.
В дальнейшем будут описаны осуществления, которые используют вышеупомянутую передачу остаточного сигнала. Однако следует заметить, что термин «объект» часто используется в двойном смысле. Иногда объект обозначает индивидуальный монозвуковой сигнал. Таким образом, стереообъект может иметь монозвуковой сигнал, формирующий один канал стереосигнала. Однако в других ситуациях стереообъект может обозначать фактически два объекта, а именно объект относительно правого канала и далее объект относительно левого канала стерео объекта. Фактический смысл станет очевидным из контекста.
Прежде чем описать следующее осуществление, следует сказать, что то же самое мотивируется недостатками, реализованными посредством основной технологии стандарта SAOC, выбранного в качестве эталонной модели 0 (RM0) в 2007 г. RM0 позволил индивидуально управлять многими звуковыми объектами, исходя из их положения панорамирования и увеличения/ослабления. Был представлен специальный сценарий в контексте применения типа «Караоке». В этом случае
- моно, стерео или объемное звучание фонового окружения (в дальнейшем называемое Фоновым объектом, BGO) передается от ряда определенных объектов SAOC, которые воспроизводятся без изменения, то есть каждый сигнал входного канала воспроизводится через тот же самый выходной канал на неизмененном уровне, и
- определенный интересующий объект (в дальнейшем называемый Объектом переднего плана, FGO) (обычно ведущий голос), который воспроизводится с изменениями (FGO обычно размещается в середине звуковой стадии и может быть приглушен, то есть значительно уменьшен, чтобы дать возможность петь хором).
Как видно из процедур субъективной оценки и как можно было ожидать исходя из основного принципа технологии, манипулирование положением объекта приводит к высококачественным результатам, в то время как манипулирование уровнем объекта обычно является более перспективными. Как правило, чем выше дополнительное усиление/ослабление сигнала, тем больше возникает потенциальных артефактов. В этом смысле сценарий Караоке является чрезвычайно требовательным, так как необходимо предельное (идеально: общее) ослабление FGO.
Случай двойного использования - способность воспроизводить только FGO без фонового/МВО и называется в дальнейшем солорежимом.
Замечено, однако, что, если включено объемное фоновое окружение, это называется Многоканальным Фоновым Объектом (МВО). Обработка МВО включает следующее, как показано на Фиг.5:
- МВО кодируется с использованием регулярного дерева 5-2-5 MPEG, Объемное звучание 102. Это приводит к формированию стерео МВО сигнала понижающего микширования 104 и МВО MPS потока дополнительной информации 106.
- МВО понижающего микширования затем кодируется последующим кодирующим устройством SAOC 108 как стереообъект (то есть разность уровней двух объектов плюс межканальная корреляция) вместе с (или несколькими) FGO 110. Это приводит к общему сигналу понижающего микширования 112 и потоку дополнительной информации SAOC 114.
В транскодере 116 сигнал понижающего микширования 112 проходит предварительную обработку, а SAOC и MPS потоки дополнительной информации 106, 114 транскодируются в единый выходной поток дополнительной информации MPS 118. Это происходит прерывистым способом, то есть или обеспечивается только полное подавление FGO (s) или полное подавление МВО.
Наконец, результирующий сигнал понижающего микширования 120 и дополнительная информация MPS 118 предоставляются декодером MPEG, Объемное звучание 122.
На фиг.5 и МВО понижающего микширования 104 и управляемый сигнал(ы) объекта 110 объединены в единый стереосигнал понижающего микширования 112. Это «загрязнение» понижающего микширования управляемым объектом 110 является причиной появления трудностей при восстановлении версии Караоке с удаленным управляемым объектом 110, который имеет достаточно высокое звуковое качество. Следующее предложение направлено на решение этой проблемы.
Если есть один FGO (например, один ведущий голос), ключевое наблюдение, используемое следующим осуществлением фиг.6, состоит в том, что SAOC сигнал является комбинацией сигналов BGO и FGO, то есть три звуковых сигнала микшируются с понижением и передаются через 2 канала понижающего микширования. В идеале, эти сигналы должны быть снова разделены в транскодере, чтобы произвести чистый сигнал Караоке (то есть чтобы удалить сигнал FGO) или произвести чистый соло сигнал (то есть чтобы удалить сигнал BGO). Это достигается в соответствии с осуществлением фиг.6, при использовании «два-к-трем» (ТТТ) элемента кодирующего устройства 124 (ТТТ-1, известен из спецификации MPEG, Объемное звучание) в пределах кодирующего устройства SAOC 108, чтобы объединить сигналы BGO и FGO в единый SAOC сигнал понижающего микширования в кодирующем устройстве SAOC. Здесь FGO подается на «центральный» вход сигнала блока ТТТ-1 124, в то время как BGO 104 подается на «левый/правый» ТТТ-1 входы L.R. Транскодер 116 может затем произвести приближения BGO 104 при использовании ТТТ элемента декодера 126 (ТТТ, известен из MPEG, Объемное звучание), то есть «левые/правый» ТТТ выходы L, R несут приближение BGO, тогда как «центральный» ТТТ выход С несет приближение FGO 110.
Сравнивая осуществление фиг.6 с осуществлением кодирующего устройства и декодером Фиг.3 и 4, можно заметить, что опорный признак 104 соответствует звуковому сигналу первого типа среди звуковых сигналов 84; средство 82 состоит из MPS кодирующего устройства 102; опорный признак 110 соответствует звуковым сигналам второго типа среди звукового сигнала 84; ТТТ-1 блок 124 принимает ответственность за функциональные возможности средств 88-92; функциональные возможности средств 86 и 94 реализуются в SAOC кодирующем устройстве 108; опорный признак 112 соответствует опорному признаку 56; опорный признак 114 соответствует дополнительной информации 58 меньше, чем остаточный сигнал 62; ТТТ блок 126 принимает ответственность за функциональные возможности средств 52 и 54; функциональные возможности смесителя 128 также состоят из средства 54. Наконец, сигнал 120 соответствует выходу сигнала на выходе 68. Далее, следует заметить тот факт, что фиг.6 также показывает основной путь кодера/декодера 131 для переноса понижающего микширования 112 от кодирующего устройства SAOC 108 к SAOC транскодеру 116. Этот основной путь кодера/декодера 131 соответствует факультативному основному кодеру 96 и основному декодеру 98. Как показано на фиг.6, этот основной путь кодера/декодера 131 может также кодировать/сжимать сигнал дополнительной информации, транспортируемый от кодирующего устройства 108 к транскодеру 116.
Преимущества, являющиеся результатом введения ТТТ блока фиг.6, станут ясными благодаря следующим описаниям. Например,
- простая подача «левого/правого» ТТТ выходов L.R. на MPS понижающего микширования 120 (и пересылка переданного МВО MPS битового потока 106 в поток 118), только МВО воспроизводится конечным декодером MPS. Это соответствует режиму Караоке.
- простая подача «центрального» ТТТ выхода С. в левый и правый MPS понижающего микширования 120 (и производство обычного MPS битового потока 118, который выводит FGO 110 на желательное положение и уровень), только FGO 110 воспроизводится конечным MPS декодером 122. Это соответствует режиму Соло.
Обработка трех ТТТ выходных сигналов L.R.C. выполняется в «смешивающем» блоке 128 из SAOC транскодера 116.
Обрабатывающая структура фиг.6 обеспечивает ряд очевидных преимуществ по сравнению с фиг.5:
- структура обеспечивает чистое структурное разделение фона (МВО) 100 и FGO сигнала 110
- структура ТТТ элемента 126 направлена на создание наилучшей реконструкции трех сигналов L.R.C. на основе формы волны. Таким образом, конечные MPS выходные сигналы 130 не только формируются посредством взвешивания энергии (и декорреляции) сигналов понижающего микширования, но и являются более близкими, изходя из формы волны, вследствие ТТТ обработки.
- Наряду с ТТТ блоком 126 MPEG Объемное звучание появляется возможность увеличить точность реконструкции при использовании остаточного кодирования. Таким образом, может быть достигнуто существенное повышение качества реконструкции, так как увеличивается остаточная полоса пропускания и остаточная скорость передачи битов для остаточного сигнала 132, выданного ТТТ-1 124 и используемого ТТТ блоком для повышающего микширования. В идеале (то есть для наилучшей квантизации в остаточном кодировании и кодировании сигнала понижающего микширования) прекращается интерференция между фоном (МВО) и сигналом FGO.
Обрабатывающая структура фиг.6 обладает рядом характеристик:
- двойственный режим Караоке/соло: подход фиг.6 предлагает функциональные возможности как Караоке, так и Соло при использовании тех же самых технических средств. Таким образом, параметры SAOC, например, снова используются.
- Способность к очищению: качество сигнала Караоке/соло может быть очищено так, как необходимо, посредством контроля над количеством остаточной кодирующей информации, используемой в ТТТ блоках. Например, могут использоваться параметры bsResidualSamplingFrequencyIndex, bsResidualBands и bsResidualFramesPerSAOCFrame.
- Размещение FGO в понижающем микшировании: При использовании ТТТ блока, как определено в спецификации MPEG Объемное звучание, FGO всегда будет микшироваться в центральное положение между левым и правым каналами понижающего микширования. Чтобы обеспечить большую подвижность размещения, используется обобщенный ТТТ блок кодирующего устройства, который следует тем же самым принципам, обеспечивая несимметрическое размещение сигнала, связанное с «центральными» входами/выходами.
- Множественные FGOs: В представленной конфигурации было описано использование только одного FGO (это может соответствовать случаю самого важного применения). Однако предложенная концепция также может урегулиовать несколько FGOs, используя одну или комбинацию следующих мер:
- Сгруппированные FGOs: Как показано на фиг.6, сигнал, который связан с центральным входом/выходом ТТТ блока, может фактически быть суммой нескольких сигналов FGO, а не только одного-единственного. Эти FGOs могут независимо размещаться/управляться в многоканальном выходном сигнале 130 (достигается максимальное качественное преимущество, однако, только, когда они измерены и размещены таким же образом). Они делят общее положение в стереосигнале понижающего микширования 112, и имеется только один остаточный сигнал 132. В любом случае, исключается интерференция между фоном (МВО) и управляемыми объектами (а не между самими управляемыми объектами).
- Каскадные FGOs: ограничения относительно общего положения FGO в понижающем микшировании 112 могут быть преодолены посредством расширения подхода фиг.6. Множественные FGOs могут быть приспособлены при каскадировании нескольких стадий описанной ТТТ структуры; каждая стадия соответствует одному FGO и производит остаточный кодирующий поток. Таким образом, в идеале, интерференция должна быть исключена также между каждым FGO. Конечно, эта опция требует более высокой скорости битового потока, чем используемая при подходе сгруппированных FGO. Пример будет описан позже.
- SAOC дополнительная информация: В MPEG Объемное звучание, дополнительная информация, связанная с ТТТ блоком, является парой Коэффициентов Предсказания Канала (CPCs). Напротив, SAOC параметризация и сценарий MBO/Karaoke передают энергии объекта для каждого сигнала объекта и межсигнальную корреляцию между двумя каналами МВО понижающего микширования (то есть параметризация для «стереообъекта»). Чтобы минимизировать число изменений в параметризации относительно случая без расширенного режима Караоке/соло, и таким образом, формата битового потока, CPCs могут быть вычислены из энергий сигналов понижающего микширования (МВО понижающего микширования и FGOs) и межсигнальной корреляций МВО стереообъекта понижающего микширования. Поэтому нет никакой необходимости изменять или усиливать переданную параметризацию, и CPCs могут быть вычислены из переданной параметризации SAOC в SAOC транскодере 116. Таким образом, битовый поток, использующий Расширенный режим Караоке/соло, может также быть декодирован обычным режимом декодера (без остаточного кодирования), игнорируя остаточные данные.
Таким образом, осуществление фиг.6 направлено на улучшение воспроизводства определенных выбранных объектов (или окружения без этих объектов) и расширяет современный SAOC подход к кодированию, используя стереопонижающее микширование следующим образом:
- В нормальном режиме каждый сигнал объекта взвешивается его элементами в матрице понижающего микширования (для его вклада в левый и правый канал понижающего микширования соответственно). Тогда все взвешенные вклады в левый и правый каналы понижающего микширования суммируются, чтобы сформировать левый и правый каналы понижающего микширования.
- Для улучшения работы в режиме Караоке/соло, то есть в расширенном режиме, все вклады объекта разделяются на множество вкладов объекта, которые формируют вклады Объекта Переднего плана (FGO) и вклады остальных объектов (BGO). Вклад FGO суммируется в моносигнал понижающего микширования, остальные фоновые вклады суммируются в стереосигнал понижающего микширования, и оба суммируются посредством использования обобщенного элемента ТТТ кодирующего устройства для формирования общего стерео SAOC сигнала понижающего микширования
Таким образом, регулярное суммирование заменяется «ТТТ суммированием» (которое может быть каскадным, если нужно).
Чтобы подчеркнуть только что упомянутое различие между нормальным режимом SAOC кодирующего устройства и расширенным режимом, делается ссылка на Фиг.7а и 7b, где фиг.7а представляет нормальный режим, а фиг.7b - расширенный режим. Как можно заметить, в нормальном режиме SAOC кодирующее устройство 108 использует вышеупомянутые DMX параметры Di,j для взвешивания объектов j и добавления таким образом взвешенного объекта j к SAOC каналу i, то есть L0 или R0. В случае расширенного режима, показанного на фиг.6, необходим просто вектор DMX-параметров Di, а именно DMX-параметры Di, указывающие на то, как сформировать взвешенную сумму FGOs 110 таким образом, чтобы получить центральный канал С для ТТТ-1 блока 124, и DMX-параметры Di, инструктирующие ТТТ-1 блок о том, как распределять центральный сигнал С для левого МВО канала и для правого МВО канала соответственно, таким образом, получая LDMX или RDMX соответственно.
Проблема заключается в том, что обработка согласно фиг.6 не работает достаточно хорошо с сохраняющими кодер-декодерами без формы волны (НЕ-ААС/SBR). Решением этой проблемы может явиться обобщенный ТТТ режим, основанный на энергии, для НЕ-ААС и высоких частот. Осуществление, связанное с этой проблемой, будет описано позже.
Возможный формат битового потока для него с каскадными TTTs может быть следующим:
Дополнительно к SAOC битовому потоку, который можно было бы пропустить, если необходимо классифицировать его в «режиме постоянного декодирования»:
numTTTs int
для (ttt=0; ttt<numTTTs; ttt++)
{no_TTT_obj[ttt]int
TTT_bandwidth[ttt]; (полоса пропускания)
TTT_residual_stream [ttt] (остаточный поток)
}
Что касается требований к сложности и памяти, можно утверждать следующее. Как видно из предыдущих объяснений, расширенный режим Караоке/соло фиг.6 исполняется путем добавления стадий одного концептуального элемента в кодирующее устройство и каждый декодер/транскодер, то есть обобщенный ТТТ-1/ТТТ элемент кодирующего устройства. Оба элемента идентичны в своей сложности относительно постоянных «центрированных» ТТТ аналогов (изменение значений коэффициентов не влияет на сложность). Для предусмотренного основного применения (один FGO в качестве ведущего голоса) достаточно одного ТТТ.
Отношение этой дополнительной структуры к сложности MPEG Окружающей системы можно оценить, рассматривая структуру всего декодера MPEG Объемное звучание, который для соответствующего случая стереопонижающего микширования (конфигурация 5-2-5) состоит из одного ТТТ элемента и двух ОТТ элементов. Это уже показывает, что добавленные функциональные возможности поступают по умеренной цене исходя из сложности вычисления и потребления памяти (заметьте, что концептуальные элементы, использующие остаточное кодирование, в среднем не более сложны, чем их аналоги, которые вместо этого включают декорреляторы).
Распространение MPEG SAOC эталонной модели фиг.6 обеспечивает улучшение качества звука для специального применения режима типа соло или немой/караоке. Снова следует заметить, что описание, соответствующее Фиг.5, 6 и 7, называет МВО фоновым окружением или BGO, которое вообще не ограничено для этого типа объекта и наоборот, может быть также моно- или стереообъектом.
Процедура субъективной оценки показывает усовершенствование в переводе на качество звука выходного сигнала при применении для соло или Караоке. Оцениваются следующие положения:
- RM0
- Расширенный режим (res 0) (= без остаточного кодирования)
- Расширенный режим (res 6) (= с остаточным кодированием в 6 самых низких гибридных QMF диапазонах)
- Расширенный режим (res 12) (= с остаточным кодированием в 12 самых низких гибридных QMF диапазонах)
- Расширенный режим (res 24) (= с остаточным кодированием в 24 самых низких гибридных QMF диапазонах)
- Скрытая Ссылка
- Нижний якорь (ограниченная версия ссылки диапазона 3.5 кГц)
Скорость передачи битов для предложенного расширенного режима подобен RM0, если используется без остаточного кодирования. Все другие расширенные режимы требуют приблизительно 10 кбит/сек для каждых 6 диапазонов остаточного кодирования.
Иллюстрация 8а показывает результаты теста для режима немой/караоке с 10 объектами прослушивания. Предложенное решение имеет средний счет MUSHRA (Multiple Stimuli with Hidden Reference and Anchor - множественные стимулы со скрытой ссылкой и якорем), который всегда выше, чем RMO, и увеличивается с каждым шагом дополнительного остаточного кодирования. Статистически существенное усовершенствование по работе RMO можно отчетливо увидеть для режимов с 6 и большим количеством диапазонов остаточного кодирования.
Результаты для теста соло с 9 объектами на фиг.8b показывают подобные преимущества предложенного решения. Средний счет MUSHRA очевидно увеличивается при добавлении все большего остаточного кодирования. Усиление между расширенным режимом без и расширенным режимом с 24 диапазонами остаточного кодирования составляет почти 50 пунктов MUSHRA.
В целом, качество работы режима Караоке достигается за счет того, что скорость передачи битов приблизительно на 10 кбит/сек выше, чем RM0. Превосходное качество можно получить, добавляя приблизительно 40 кбит/сек к скорости передачи битов RM0. В реальном сценарии применения, где дана максимальная зафиксированная скорость передачи битов, предложенный расширенный режим прекрасно позволяет тратить «неиспользованную скорость передачи битов» для остаточного кодирования до тех пор, пока не будет достигнута допустимая максимальная скорость. Поэтому достигается самое лучшее полное звуковое качество. Возможно дальнейшее усовершенствование по представленным экспериментальным результатам вследствие более разумного использования остаточной скорости передачи битов: В то время как представленная установка всегда использовала остаточное кодирование от DC до определенной верхней граничной частоты, расширенное выполнение потратит только биты для частотного диапазона, который важен для разделения FGO и фоновых объектов.
Ранее была описана улучшенная технология SAOC для использования режимов типа караоке. Представлены дополнительные детальные осуществления применения расширенного режима Караоке/соло для многоканальной FGO обработки звукового окружения для MPEG SAOC.
В отличие от FGOs, которые воспроизводятся с изменениями, сигналы МВО должны быть воспроизведены без изменений, то есть каждый сигнал входного канала воспроизводится через тот же самый выходной канал на неизмененном уровне. Следовательно, была предложена предварительная обработка сигналов МВО посредством кодирующего устройства MPEG Объемное звучание, что привело к получению стереосигнала понижающего микширования, который служит (стерео) фоновым объектом (BGO), который будет введен в последующие стадии обработки режима Караоке/соло, включающие SAOC кодирующее устройство, МВО транскодер и MPS декодер. Фиг.9 снова показывает диаграмму полной структуры.
Как можно заметить, согласно структуре кодера режима Караоке/соло, входные объекты сортируются на стереофоновый объект (BGO) 104 и объекты переднего плана (FGO) 110.
В то время как в RM0 управление этими сценариями применения выполняется кодирующим устройством SAOC/системой транскодера, расширение фиг.6 дополнительно эксплуатирует элементарный стандартный блок структуры MPEG, Объемное звучание. Включение блока три-к-двум (ТТТ-1) в кодирующее устройство и соответствующее дополнение два-к-трем (ТТТ) в транскодер улучшает работу, когда требуется сильное повышение/ослабление специфического звукового объекта. Две основные характеристики расширенной структуры:
- лучшее разделение сигнала вследствие эксплуатации остаточного сигнала (по сравнению с RM0),
- подвижное размещение сигнала, обозначенное как центральный вход (то есть FGO) ТТТ блока посредством обобщения его спецификации микширования.
Так как прямое выполнение стандартного ТТТ блока вовлекает три входных сигнала на стороне кодирующего устройства, фиг.6 сосредоточен на обработке FGOs как (микшированный с понижением) моносигнал согласно изображению на фиг.10. Обработка многоканальных FGO сигналов также была заявлена, но будет объяснена более подробно в последующей главе.
Как видно по фиг.10, в расширенном режиме фиг.6 комбинация всех FGOs подается в центральный канал ТТТ-1 блока.
В случае FGO монопонижающего микширования, как показано на фиг.6 и фиг.10, конфигурация ТТТ-1 блока в кодирующем устройстве включает FGO, который подается к центральному входу, и BGO обеспечивающий левый и правый вход. Основная симметричная матрица выглядит:
Figure 00000015
, которая обеспечивает понижающее микширование (L0 R0)Т и сигнал F0:
Figure 00000016
.
Третий сигнал, полученный посредством этой линейной системы, отбрасывается, но может быть восстановлен на стороне транскодера, включающей два коэффициента предсказания c1 и с2 (СРС) согласно:
Figure 00000017
.
Обратный процесс в транскодере представлен:
Figure 00000018
.
Параметры m1 и m2 соответствуют:
m1=cos(µ) и m2=sin(µ)
и µ ответственен за панорамирование FGO в общем ТТТ понижающем микшировании (L0 R0)T. Коэффициенты предсказания c1 и c2, требуемые ТТТ узлом повышающего микширования на стороне транскодера, могут быть оценены посредством использования переданных SAOC параметров, то есть разности уровней объекта (OLDs) для всех входных звуковых объектов и межобъектной корреляции (IOC) для BGO сигналов понижающего микширования (МВО). При условии статистической независимости FGO и BGO сигналов следующее отношение справедливо для оценки СРС:
Figure 00000019
,
Figure 00000020
.
Переменные PLo, PRo, PLoRo, PLoFo и PRoFo могут быть оценены следующим образом, где параметры OLDL, OLDR и IOCLR соответствуют BGO, a OLDF является параметром FGO:
Figure 00000021
,
Figure 00000022
,
PLoRo=IOCLR+m1m2OLDF,
PLoFo=m1(OLDL-OLDF)+m2IOCLR,
PRoFo=m2(OLDR-OLDF)+m1IOCLR.
Дополнительно, ошибка, введенная импликацией CPCs, представлена остаточным сигналом 132, который может быть передан в рамках битового потока, таким образом, что:
Figure 00000023
.
В некоторых сценариях применения ограничение одиночного моносигнала понижающего микширования всех FGOs непригодно, следовательно, оно должно быть преодолено. Например, FGOs могут быть разделены на две или больше независимых группы с различными положениями в переданном стереосигнале понижающего микширования и/или индивидуально ослаблены. Поэтому каскадная структура, показанная на фиг.11, подразумевает два или больше последовательных ТТТ-1 элементов 124а, 124b, результатом которых является постепенное понижающее микширование всех групп FGO F1, F2 на стороне кодирующего устройства, пока не будет получен желательный стереосигнал понижающего микширования 112. Каждый - или, по крайней мере, некоторые - ТТТ-1 блоки 124а, b (на фиг.11 каждый) устанавливает остаточный сигнал 132а, 132b, соответствующий определенной стадии или ТТТ-1 блок 124а, b соответственно. Наоборот, транскодер выполняет последовательное повышающее микширование посредством определенного последовательно применения ТТТ блоков 126а, b, включая соответствующие CPCs и остаточные сигналы, где возможно. Порядок обработки FGO определяется кодирующим устройством и должен рассматриваться на стороне транскодера.
Детальные расчеты, связанные с двухэтапным каскадом, показанным на фиг.11, описаны в дальнейшем.
Без потери в общности, но для простоты следующее объяснение основывается на каскаде, состоящем из двух ТТТ элементов, как показано на фиг.11. Две симметричные матрицы подобны моно FGO понижающего микширования, но должны быть применены соразмерно к соответствующим сигналам:
Figure 00000024
и
Figure 00000025
.
Здесь два комплекта CPCs приводят к следующей реконструкции сигнала:
Figure 00000026
и
Figure 00000027
.
Обратный процесс представлен:
Figure 00000028
, и
Figure 00000029
.
Особый случай двухэтапного каскада включает один стерео FGO, где его левый и правый каналы суммируются должным образом на соответствующие каналы BGO, в результате чего получается µ1=0 и
Figure 00000030
:
Figure 00000031
, и
Figure 00000032
.
Для этого конкретного типа панорамирования и пренебрегая межобъектной корреляцией, OLDLR=0 оценку двух комплектов CPCs уменьшают до:
Figure 00000033
, cL2=0,
cR1=0,
Figure 00000034
,
где OLDFL и OLDFR обозначают OLDs левого и правого FGO сигнала соответственно.
Случай обычного каскада N-стадии относится к многоканальному FGO понижающего микширования согласно:
Figure 00000035
,
Figure 00000036
, …,
Figure 00000037
.
где каждая стадия показывает свои собственные CPCs и остаточный сигнал.
На стороне транскодера шаги обратного каскадирования дают:
Figure 00000038
, …,
Figure 00000039
.
Чтобы избежать необходимости сохранять порядок ТТТ элементов, каскадная структура может быть легко преобразована в эквивалентную параллельную посредством перестройки N матриц в одну-единую симметричную TTN матрицу, таким образом, давая в результате обычный TTN тип:
Figure 00000040
,
где первые две линии матрицы обозначают стереопонижающее микширование, подлежащее передаче. С другой стороны, термин TTN - two-to-N - относится к процессу повышающего микширования на стороне транскодера.
Используя это описание, частный случай индивидуально панорамированного стерео FGO уменьшает матрицу до:
Figure 00000041
.
Соответственно, этот узел может называться элементом два- к- четырем или TTF.
Также возможно получить TTF структуру, повторно используя SAOC стереомодуль препроцессора.
Для ограничения N=4 исполнение структуры два- к- четырем (TTF), которое повторно использует части существующей SAOC системы, становится допустимым. Обработка описана в следующих параграфах.
SAOC стандартный текст описывает предварительную обработку стереоповышающего микширования для «стерео- к- стереорежиму транскодирования». Строго говоря, выходной стереосигнал Y вычисляется из входного стереосигнала Х вместе с декоррелированным сигналом Xd следующим образом:
Y=GModX+P2Xd.
Декоррелированный компонент Xd - искусственное представление частей оригинального предоставленного сигнала, который уже был отклонен в процессе кодирования. Согласно фиг.12 декоррелированный сигнал заменяется остаточным сигналом, произведенным подходящим кодирующим устройством 132 для определенного частотного диапазона.
Спецификация определена как:
- D - 2×N матрица понижающего микширования
- А - 2×N передающая матрица
- Е - модель N×N ковариации входных объектов S
- GMod (соответствует G на фиг.12) - прогнозируемые 2×2 матрицы повышающего микширования.
Заметьте, что GMod - функция D, А и Е.
Чтобы вычислить остаточный сигнал XRes, необходимо воспроизвести обработку декодера в кодирующем устройстве, то есть определить GMod. В обычных сценариях А неизвестен, но в сценарии частного случая режима Караоке (например, с одним стереофоновым объектом и одним стереообъектом переднего плана, N=4) принимается, что
Figure 00000042
,
что означает, что представлен только BGO.
Для оценки объекта переднего плана восстановленный фоновый объект вычитается из сигнала понижающего микширования X. Это и заключительное предоставление выполняется в обрабатывающем блоке «микширования». Детали представлены в дальнейшем.
Передающая матрица А установлена в
Figure 00000043
,
где предполагается, что первые 2 колонки представляют 2 канала FGO, и вторые 2 колонки представляют 2 канала BGO.
BGO и FGO стереовыход вычисляется согласно следующим формулам.
YBGO=GModX+XRes
Так как весовая матрица понижающего микширования D определяется как
Figure 00000044
при
Figure 00000045
и
Figure 00000046
FGO объект может быть установлен в
Figure 00000047
В качестве примера это уменьшается до
YFGO=X-YBGO
для матрицы понижающего микширования
Figure 00000048
XRes - остаточные сигналы, полученные, как описано выше. Пожалуйста, заметьте, что никакие декоррелированные сигналы не добавляются. Конечный выход Y представляется:
Figure 00000049
Вышеупомянутые осуществления также могут быть применены, если используется моно FGO вместо стерео FGO. Обработка тогда изменяется согласно следующему.
Передающая матрица А установлена в
Figure 00000050
где предполагается, что первая колонка представляет моно FGO, а последующие колонки представляют 2 канала BGO.
BGO и FGO стереовыход вычисляется согласно следующим формулам.
YFGO=GModX+XRes
Так как весовая матрица понижающего микширования D определяется как
Figure 00000051
при
Figure 00000052
и
Figure 00000053
BGO объект может быть установлен в
Figure 00000054
В качестве примера это уменьшается до
Figure 00000055
для матрицы понижающего микширования
Figure 00000056
XRes - остаточные сигналы, полученные, как описано выше. Пожалуйста, заметьте, что никакие декоррелированные сигналы не добавляются.
Конечный выход Y представлен
Figure 00000057
Для управления более чем 4-мя FGO объектами вышеупомянутые осуществления могут быть расширены посредством компоновки параллельных стадий шагов обработки, только что описанных.
Вышеупомянутые только что описанные осуществления обеспечили детальное описание расширенного режима Караоке/соло для случаев многоканального звукового FGO окружения. Это обобщение имеет целью увеличить класс сценариев применения режима Караоке, для которых звуковое качество MPEG SAOC эталонной модели может быть далее улучшено посредством применения расширенного режима Караоке/соло. Усовершенствование достигается посредством введения обычной NTT структуры в микшированную с понижением часть SAOC кодирующего устройства и соответствующих аналогов в SAOC для MPS транскодера. Использование остаточных сигналов увеличивало качественный результат.
Фиг.13а-13h осуществления данного изобретения показывают возможный синтаксис SAOC битового потока дополнительной информации.
Описав некоторые осуществления относительно расширенного режима для SAOC кодер-декодера, следует отметить, что некоторые осуществления касаются сценариев применения, где звуковой вход в SAOC кодирующее устройство содержит не только регулярные моно или стереозвуковые источники, но и многоканальные объекты. Это было ясно описано относительно Фиг.5-7b. Такой многоканальный фоновый объект МВО может рассматриваться как сложное звуковое окружение, вовлекающее большое и часто неизвестное число звуковых источников, для которых не требуется предоставление никаких управляемых функциональных возможностей. Индивидуально, эти звуковые источники не могут эффективно управляться архитектурой SAOC кодирующего устройства/декодера. Концепцию SAOC архитектуры можно, поэтому, рассматривать как расширенную, чтобы иметь дело с этими сложными входными сигналами, то есть МВО каналами вместе с типичными SAOC звуковыми объектами. Поэтому в только что упомянутых осуществлениях фиг.5-7b кодирующее устройство MPEG Объемное звучание рассматривается как включенное в SAOC кодирующее устройство, что обозначено пунктиром, окружающим SAOC кодирующее устройство 108 и MPS кодирующее устройство 100. Результирующее понижающее микширование 104 служит входным стереообъектом в SAOC кодирующее устройство 108 вместе с управляемым SAOC объектом 110, производящим объединенное стереопонижающее микширование 112, передаваемое на сторону транскодера. В области значений параметра и MPS битовый поток 106 и SAOC битовый поток 114 подаются в SAOC транскодер 116, который, завися от частного МВО сценария применения, обеспечивает соответствующий MPS битовый поток 118 для декодера MPEG Объемное звучание 122. Эта задача выполняется посредством использования предоставляемой информации или передающей матрицы и применения некоторой предварительной обработки понижающего микширования, чтобы преобразовать сигнал понижающего микширования 112 в сигнал понижающего микширования 120 для MPS декодера 122.
Дальнейшее осуществление для расширенного режима Караоке/соло описано ниже. Это позволяет индивидуально манипулировать несколькими звуковыми объектами исходя из усиления/ослабления уровня без существенного снижения качества результирующего звука. Специальный сценарий применения режима «типа караоке» требует полного подавления определенных объектов, обычно ведущего голоса (в дальнейшем называемом Объектом Переднего Плана, FGO) при сохранении неповрежденным перцепционного качества фонового звукового окружения. Это также влечет за собой возможность индивидуально воспроизводить определенные FGO сигналы без статического фонового звукового окружения (в дальнейшем называемое Фоновым Объектом, BGO), который не требует пользовательского управления на основе панорамирования. Этот сценарий называется режимом «Соло». Типичный случай применения содержит стерео BGO и до четырех FGO сигналов, которые могут, например, представлять два независимых стереообъекта.
Согласно этому осуществлению и фиг.14 расширенный Караоке/соло транскодер 150 включает или «два-к-N» (TTN) или «один-к-N» (OTN) элемент 152, оба представляющие обобщенную и расширенную модификацию ТТТ блока, известную из спецификации MPEG, Объемное звучание. Выбор соответствующего элемента зависит от числа переданных каналов понижающего микширования, то есть TTN блок предназначен для стереосигнала понижающего микширования, в то время как для моносигнала понижающего микширования применяется OTN блок. Соответствующий TTN-1 или OTN-1 блок в SAOC кодирующем устройстве комбинирует BGO и FGO сигналы в общий SAOC стерео- или моносигнал понижающего микширования 112 и производит битовый поток 114. Произвольное предопределенное размещение всех индивидуальных FGOs в сигнале понижающего микширования 112 поддерживается любым элементом, то есть TTN или OTN 152. На стороне транскодера BGO 154 или любая комбинация FGO сигналов 156 (в зависимости от режима работы 158 примененяемого внешне) восстанавливается из понижающего микширования 112 посредством TTN или OTN блока 152, использующего только дополнительную информацию SAOC 114 и по выбору включающего остаточные сигналы. Восстановленные звуковые объекты 154/156 и предоставляемая информация 160 используются, чтобы произвести битовый поток MPEG, Объемное звучание 162 и соответствующий предобработанный сигнал 164. Узел микширования 166 выполняет обработку сигнала понижающего микширования 112, чтобы получить MPS входное понижающее микширование 164, и MPS транскодер 168 отвечает за транскодирование SAOC параметров 114 до MPS параметров 162. TTN/OTN блок 152 и узел микширования 166 вместе выполняют обработку расширенного режима Караоке/соло 170, соответствующего средствам 52 и 54 на фиг.3 с функцией узла микширования, состоящего из средства 54.
МВО может рассматриваться так же, как было объяснено выше, то есть предварительно обрабатывается кодирующим устройством MPEG, Объемное звучание, выдавая в результате моно- или стереосигнал понижающего микширования, который служит BGO, который будет введен в последующее усиленное SAOC кодирующее устройство. В этом случае транскодер должен быть предоставлен с дополнительным битовым потоком MPEG, Объемное звучание вслед за SAOC битовым потоком.
Затем объясняется вычисление, выполненное TTN (OTN) элементом. Матрица TTN/OTN, выраженная в первом предопределенном временном/частотным разрешении 42, М., является продуктом двух матриц
М=D-1C,
где D-1 включает информацию о понижающем микшировании, и С подразумевает коэффициенты предсказания канала (CPCs) для каждого FGO канала. С вычисляется средством 52 и блоком 152, соответственно, a D-1 вычисляется и применяется наряду с С для SAOC понижающего микширования при помощи средства 54 и блока 152 соответственно. Вычисление выполнено согласно
Figure 00000058
для TTN элемента, то есть стереопонижающего микширования и
Figure 00000059
для OTN элемента, то есть монопонижающего микширования.
CPCs получаются из переданных SAOC параметров, то есть OLDs, IOCs, DMGs и DCLDs. Для одного определенного FGO канала j CPCs могут быть оценены по
Figure 00000060
и
Figure 00000061
.
Figure 00000062
,
Figure 00000063
,
Figure 00000064
Figure 00000065
Figure 00000066
.
Параметры OLDL, OLDR и IOCLR соответствуют BGO, остальные являются значениями FGO.
Коэффициенты mj и nj обозначают величины понижающего микширования для каждого FGO j для правого и левого каналов понижающего микширования, и получаются из коэффициентов усиления понижающего микширования, DMG, и разностей уровней канала понижающего микширования, DCLD
Figure 00000067
и
Figure 00000068
.
Относительно OTN элемента вычисление вторых СРС величин cj2 становится избыточным.
Чтобы восстановить две группы объекта BGO и FGO, информация о понижающем микшировании эксплуатируется обратной матрицей понижающего микширования D, которая расширена, чтобы в дальнейшем прописать линейную комбинацию для сигналов F01 к F0N, то есть
Figure 00000069
.
В дальнейшем будет описано понижающее микширование на стороне кодирующего устройства: В пределах TTN-1 элемента расширенная матрица понижающего микширования
Figure 00000070
для стерео BGO,
Figure 00000071
для моно BGO,
и для OTN-1 элемента это
Figure 00000072
для стерео BGO,
Figure 00000073
для моно ВGО.
Выход TTN/OTN элемента дает
Figure 00000074
для стерео BGO и стереопонижающего микширования. В случае, если BGO и/или понижающее микширование является моносигналом, линейная система изменяется соответственно.
Остаточный сигнал resi соответствует FGO объекту i и, если не передается SAOC потоком - потому что, например, находится вне остаточного частотного диапазона, или если сообщается, что для FGO объекта i никакой остаточный сигнал не передается вообще - resi означает ноль.
Figure 00000075
- восстановленный/микшированный с повышением сигнал, приближающийся к FGO объекту i. После вычисления он может быть пропущен через синтезирующий блок фильтров, чтобы получить временной интервал, такой как РСМ закодированная версия FGO объекта i. Следует помнить, что L0 и R0 обозначают каналы SAOC сигналов понижающего микширования и являются доступными/сигнализируют об увеличенном временном/частотном разрешении по сравнению с параметрическим разрешением, лежащим в основе индексов (n, k).
Figure 00000076
и
Figure 00000077
- восстановленные/микшированные с повышением сигналы, приближающиеся к левому и правому каналам BGO объекта. Наряду с MPS дополнительным битовым потоком он может быть передан на оригинальное число каналов.
Согласно осуществлению следующая TTN матрица используется в энергетическом режиме.
Процедура кодирования/декодирования, основанная на энергии, разработана для сохраняющего кодирования без формы волны сигнала понижающего микширования. Таким образом, TTN матрица повышающего микширования для соответствующего энергетического режима не зависит от формы волны, а только описывает относительное распределение энергии входных звуковых объектов. Элементы этой матрицы MEnergy получены из соответствующих OLDs согласно:
Figure 00000078
и
Figure 00000079
так, чтобы выход элемента TTN выдавал
Figure 00000080
, или соответственно
Figure 00000081
.
Соответственно для монопонижающего микширования основанная на энергии матрица повышающего микширования MEnergy становится
Figure 00000082
для стерео BGO, и
Figure 00000083
для моно BGO,
так, чтобы выход OTN элемента дал в результате
Figure 00000084
, или соответственно
Figure 00000085
.
Таким образом, согласно только что упомянутому осуществлению классификация всех объектов (Obj1…ObjN) в BGO и FGO соответственно выполняется на стороне кодирующего устройства. BGO может быть моно (L) или стерео
Figure 00000086
объектом. Фиксируется понижающее микширование BGO в сигнал понижающего микширования. Что касается FGOs, их число теоретически не ограничено. Однако для большинства применений в общей сложности четыре FGO объекта кажутся адекватными. Допустимы любые комбинации моно- и стереообъектов. Посредством параметров mi (взвешивание в левом/моносигнале понижающего микширования) и ni (взвешивание в правом сигнале понижающего микширования) FGO понижающего микширования является переменным. и по времени и по частоте. Как следствие, сигнал понижающего микширования может быть моно (L0) или стерео
Figure 00000087
.
Снова, сигналы (F01…F0N)T не переданы декодеру/транскодеру. Скорее они же предсказаны на стороне декодера посредством вышеупомянутых CPCs.
В этом отношении снова следует заметить, что остаточные сигналы res могут даже игнорироваться декодером. В этом случае декодер - средство 52, например - предсказывает виртуальные сигналы, базирующиеся только на CPCs согласно:
Стереопонижающее микширование:
Figure 00000088
Монопонижающее микширование:
Figure 00000089
.
Тогда BGO и/или FGO получаются посредством - например, средства 54 - инверсии одной из четырех возможных линейных комбинаций кодирующего устройства,
например,
Figure 00000090
,
где снова D-1 - функция параметров DMG и DCLD.
Таким образом, в конечном итоге остаточный отбрасываемый TTN (OTN) блок 152 осуществляет оба только что упомянутые шага вычисления
например:
Figure 00000091
.
Замечено, что инверсия D может быть получена непосредственно в случае, если D является квадратным. В случае неквадратной матрицы D инверсия D должна быть псевдоинверсией, то есть pinν(D)=D*(DD*)-1 или pinν(D)=(D*D)-1D*. В любом случае существует инверсия для D.
Наконец, фиг.15 показывает дальнейшую возможность того, как установить, в рамках дополнительной информации, количество данных, потраченных на пересылку остаточных данных. Согласно этому синтаксису дополнительная информация включает bsResidualSamplingFrequencyIndex, то есть индекс к таблице, связанной, например, с частотным разрешением индекса. Альтернативно, разрешение может быть предполагаемым, чтобы быть предопределенным разрешением, таким как разрешение блока фильтров или параметрическое разрешение. Далее, дополнительная информация включает bsResidualFramesPerSAOCFrame, определяющие разрешение по времени, при котором передается остаточный сигнал. BsNumGroupsFGO, также состоящие из дополнительной информации, указывают число FGOs. Для каждого FGO элемент синтаксиса bsResidualPresent передается, указывая, передается или нет остаточный сигнал для соответствующего FGO. Если присутствует, bsResidualBands указывают число спектральных диапазонов, для которых переданы остаточные величины.
В зависимости от фактического выполнения изобретательные способы кодирования/декодирования могут быть осуществлены в аппаратных средствах или в программном обеспечении. Поэтому данное изобретение также имеет отношение к компьютерной программе, которая может быть сохранена на электронно-считываемом носителе, таком как компакт-диск, диск или любой другой носитель информации. Данное изобретение является поэтому также компьютерной программой, имеющей управляющую программу, которая, будучи реализованной на компьютере, выполняет изобретательный способ кодирования или изобретательный способ декодирования, описанный в связи с вышеупомянутыми рисунками.

Claims (25)

1. Звуковой декодер для декодирования многообъектного звукового сигнала, имеющий звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем; многообъектный звуковой сигнал состоит из сигнала понижающего микширования (56) и дополнительной информации (58); дополнительная информация включает информацию об уровне (60) звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении (42), и остаточный сигнал (62) определяет величины остаточного уровня во втором предопределенном временном/частотном разрешении, включает средство (52) для вычисления коэффициентов предсказания (64), основанное на информации об уровне (60); и средство (54) для повышающего микширования сигнала понижающего микширования (56), основанное на коэффициентах предсказания (64) и остаточном сигнале (62), для получения первого звукового сигнала повышающего микширования, приближающегося к звуковому сигналу первого типа и/или второго звукового сигнала повышающего микширования, приближающегося к звуковому сигналу второго типа.
2. Звуковой декодер по п.1, в котором дополнительная информация (58) далее включает предписание понижающего микширования, согласно которому звуковой сигнал первого типа и звуковой сигнал второго типа микшируются с понижением в сигнал понижающего микширования (56), где средство для повышающего микширования выполнено с возможностью далее выполнять повышающее микширование, основанное на предписании понижающего микширования.
3. Звуковой декодер по п.2, в котором предписание понижающего микширования изменяется во времени в рамках дополнительной информации.
4. Звуковой декодер по п.2, в котором предписание понижающего микширования изменяется во времени в рамках дополнительной информации, когда разрешение по времени является более крупным, чем размер структуры.
5. Звуковой декодер по п.2, в котором предписание понижающего микширования указывает взвешивание, посредством которого сигнал понижающего микширования был микширован с повышением, основываясь на звуковом сигнале первого типа и звуковом сигнале второго типа.
6. Звуковой декодер по п.1, в котором звуковой сигнал первого типа является звуковым стереосигналом, имеющим первый и второй входной канал, или монозвуковым сигналом, имеющим только первый входной канал, а сигнал понижающего микширования является звуковым стереосигналом, имеющим первый и второй выходной канал, или монозвуковым сигналом, имеющим только первый выходной канал, где информация об уровне описывает разность уровней между первым входным каналом, вторым входным каналом и звуковым сигналом второго типа соответственно в первом предопределенном временном/частотном разрешении, где дополнительная информация далее включает информацию о межкорреляции, определяющую общие черты уровней между первым и вторым входными каналами в третьем предопределенном временном/частотном разрешении, где средство для вычисления формируется, чтобы далее выполнять вычисление, основанное на информации о межкорреляции.
7. Звуковой декодер по п.6, в котором первое и третье временное/частотное разрешения определяются общим элементом синтаксиса в рамках дополнительной информации.
8. Звуковой декодер по п.6, в котором средство для вычисления и средство для повышающего микширования выполнены таким образом, что повышающее микширование представляется посредством приложения вектора, составленного из сигнала понижающего микширования и остаточного сигнала, к последовательности первой и второй матрицы; первая матрица (С) состоит из коэффициентов предсказания, а вторая матрица (D) определяется посредством предписания понижающего микширования, согласно которому звуковой сигнал первого типа и звуковой сигнал второго типа микшированы с понижением в сигнал понижающего микширования, и который также состоит из дополнительной информации.
9. Звуковой декодер по п.8, в котором средство для вычисления и средство для повышающего микширования выполнены таким образом, что первая матрица отображает вектор на промежуточном векторе, имеющем первый компонент для звукового сигнала первого типа и/или второй компонент для звукового сигнала второго типа, и определяется таким образом, что сигнал понижающего микширования отображается на первом компоненте 1-к-1, и линейная комбинация остаточного сигнала и сигнала понижающего микширования отображается на втором компоненте.
10. Звуковой декодер по п.1, в котором многообъектный звуковой сигнал включает множество звуковых сигналов второго типа, а дополнительная информация включает один остаточный сигнал на звуковой сигнал второго типа.
11. Звуковой декодер по п.1, в котором второе предопределенное временное/частотное разрешение связано с первым предопределенным временным/частотным разрешением через остаточное параметрическое разрешение, содержащееся в дополнительной информации, где звуковой декодер включает средство для получения остаточного параметрического разрешения из дополнительной информации.
12. Звуковой декодер по п.11, в котором остаточное параметрическое разрешение определяет спектральный диапазон, по которому остаточный сигнал передается в рамках дополнительной информации.
13. Звуковой декодер по п.12, в котором остаточное параметрическое разрешение определяет нижний и верхний предел спектрального диапазона.
14. Звуковой декодер по п.1, в котором средство для вычисления коэффициентов предсказания, основанное на информации об уровне, формируется, чтобы вычислять коэффициенты предсказания канала
Figure 00000092
для каждого элемента времени/частоты (l, m) первого временного/частотного разрешения, для каждого выходного канала i из сигнала понижающего микширования и для каждого канала j звукового сигнала(ов) второго типа как
Figure 00000093
и
Figure 00000094

при
Figure 00000095

Figure 00000096

Figure 00000097

Figure 00000098

Figure 00000099

где OLDL обозначает нормализованную спектральную энергию первого входного канала звукового сигнала первого типа в соответствующем элементе времени/частоты; OLDR обозначает нормализованную спектральную энергию второго входного канала звукового сигнала первого типа в соответствующем элементе времени/частоты; и ioclr обозначает информацию о межкорреляции, определяющую спектральное подобие энергии между первым и вторым входным каналом в пределах соответствующего элемента времени/частоты в случае, если звуковой сигнал первого типа является стереосигналом или oldl обозначает нормализованную спектральную энергию звукового сигнала первого типа в соответствующем элементе времени/частоты; и OLDR и IOCLR являются нулем для случая моносигнала,
и где OLDj обозначает нормализованную спектральную энергию канала j звукового сигнала(ов) второго типа в соответствующем элементе времени/частоты, а IOCij обозначает информацию о межкорреляции, определяющую подобие спектральной энергии между каналами i и j звукового сигнала(ов) второго типа в пределах соответствующего элемента времени/частоты, где
Figure 00000100
и
Figure 00000101

где DCLD и DMG - предписания понижающего микширования,
где средство для повышающего микширования выполнено, чтобы производить первый сигнал повышающего микширования S1 и/или второй сигнал(лы) повышающего микширования S2,i из сигнала понижающего микширования d и остаточного сигнала resi на второй сигнал повышающего микширования S2,i посредством
Figure 00000102

где «1» в верхнем левом углу обозначает в зависимости от числа каналов dn,k скаляр или матрицу идентичности; «1» в нижнем правом углу является матрицей идентичности размера N; «0» обозначает нулевой вектор или матрицу, также зависящую от числа каналов dn,k, a D-1 - матрица, однозначно определенная посредством предписания понижающего микширования, согласно которому звуковой сигнал первого типа и звуковой сигнал второго типа микшированы с понижением в сигнал понижающего микширования, и который также состоит из дополнительной информации, dn,k и
Figure 00000103
, сигнала понижающего микширования и остаточного сигнала для второго сигнала повышающего микширования S2,i в элементе времени/частоты (n, k) соответственно, где
Figure 00000104
не состоят из дополнительной информации и установлены на нуль.
15. Звуковой декодер по п.14, где D-1 является инверсией
Figure 00000105
в случае, когда сигнал понижающего микширования является стереосигналом и S1 является стереосигналом,
Figure 00000106
в случае, когда сигнал понижающего микширования является стереосигналом, а S1 является моносигналом,
Figure 00000107
в случае, когда сигнал понижающего микширования является моносигналом, а S1 является стереосигналом, или
Figure 00000108
в случае, когда сигнал понижающего микширования является моносигналом и S1 является моносигналом.
16. Звуковой декодер по п.1, в котором многообъектный звуковой сигнал включает пространственную предоставляемую информацию для пространственного представления звукового сигнала первого типа на предопределенную конфигурацию громкоговорителя.
17. Звуковой декодер по п.1, в котором средство для повышающего микширования формируется, чтобы пространственно предоставлять первый звуковой сигнал повышающего микширования, отделенный от второго звукового сигнала повышающего микширования, чтобы пространственно предоставлять второй звуковой сигнал повышающего микширования, отделенный от первого звукового сигнала повышающего микширования, или чтобы микшировать первый звуковой сигнал повышающего микширования и второй звуковой сигнал повышающего микширования, и чтобы пространственно предоставлять их микшированную версию на предопределенную конфигурацию громкоговорителя.
18. Звуковое кодирующее устройство объекта включает средство для вычисления информации об уровне звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении; средство для вычисления коэффициентов предсказания, основанного на информации об уровне; средство для звукового сигнала понижающего микширования первого типа и звукового сигнала второго типа, чтобы получить сигнал понижающего микширования; средство для регулирования остаточного сигнала, определяющего величину остаточного уровня во втором предопределенном временном/частотном разрешении таким образом, что повышающее микширование сигнала понижающего микширования, основывающееся и на коэффициентах предсказания и на величинах остаточного сигнала, дает в результате первый звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу первого типа, и второй звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу второго типа; улучшенное приближение сравнимо с отсутствием остаточного сигнала, информация об уровне и остаточный сигнал, состоявший из дополнительной информации, формируют наряду с сигналом понижающего микширования многообъектный звуковой сигнал.
19. Звуковое кодирующее устройство объекта по п.18 дополнительно включает средство для спектрального разложения звукового сигнала первого типа и звукового сигнала второго типа.
20. Способ декодирования многообъектного звукового сигнала, имеющего звуковой сигнал первого типа и звуковой сигнал второго типа, закодированные в нем; многообъектный звуковой сигнал состоит из сигнала понижающего микширования (56) и дополнительной информации (58); дополнительная информация включает информацию об уровне (60) звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении (42), и остаточный сигнал (62), определяющий значения остаточного уровня во втором предопределенном временном/частотном разрешении, включающий вычисление коэффициентов предсказания (64), основанное на информации об уровне (60); и повышающее микширование сигнала понижающего микширования (56), основанное на коэффициентах предсказания (64) и остаточном сигнале (62), для получения первого звукового сигнала повышающего микширования, приближающегося к звуковому сигналу первого типа и/или второго звукового сигнала повышающего микширования, приближающегося к звуковому сигналу второго типа.
21. Способ кодирования многообъектного звукового сигнала, включающий вычисление информации об уровне звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении; вычисление коэффициентов предсказания, основанное на информации об уровне; понижающее микширование звукового сигнала первого типа и звукового сигнала второго типа, чтобы получить сигнал понижающего микширования; регулирование остаточного сигнала, определяющее величины остаточного уровня во втором предопределенном временном/частотном разрешении таким образом, что повышающее микширование сигнала понижающего микширования, основанное и на коэффициентах предсказания и на остаточном сигнале, дает в результате первый звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу первого типа, и второй звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу второго типа; улучшенное приближение сравнимо с отсутствием остаточного сигнала, информация об уровне и остаточный сигнал, состоявший из дополнительной информации, формируют наряду с сигналом понижающего микширования многообъектный звуковой сигнал.
22. Машиночитаемый носитель, содержащий сохраненный на нем компьютерный программный продукт с кодом программы для выполнения способа по п.20 или 21.
23. Многообъектный звуковой сигнал, имеющий звуковой сигнал первого типа и звуковой сигнал второго типа, закодированный в нем; многообъектный звуковой сигнал, состоящий из сигнала понижающего микширования и дополнительной информации; дополнительная информации включает информацию об уровне звукового сигнала первого типа и звукового сигнала второго типа в первом предопределенном временном/частотном разрешении, и остаточный сигнал, определяющий величины остаточного уровня во втором предопределенном временном/частотном разрешении, где остаточный сигнал установлен таким образом, что вычисление коэффициентов предсказания, основанное на информации об уровне, и повышающее микширование сигнала понижающего микширования, основанное на коэффициентах предсказания и остаточном сигнале, в результате дает первый звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу первого типа, и второй звуковой сигнал повышающего микширования, приближающийся к звуковому сигналу второго типа.
24. Декодер SAOC для декодирования SAOC стереосигнала понижающего микширования (112); SAOC дополнительная информация (106, 114) и остаточное кодирование (132); SAOC стереосигнал понижающего микширования, являющийся комбинацией стереосигнала объекта (104), формирующего первый и второй звуковые сигналы, и моносигнал объекта (110), формирующего третий звуковой сигнал; SAOC дополнительная информация, включающая отношения энергии объекта для каждого из трех звуковых сигналов и корреляции межсигнала между первым и вторым звуковыми сигналами; и остаточное кодирование, служащее для улучшения качества восстановления повышающего микширования; SAOC декодер включает ТТТ блок (ТТТ = два-к-трем), формируемый для вычисления (52) коэффициентов предсказания канала из энергий объекта и корреляции межсигнала, и повышающее микширование восстанавливает (54) первый и второй звуковые сигналы и/или третий звуковой сигнал на основе формы волны посредством ТТТ обработки с использованием коэффициентов предсказания канала и остаточного сигнала.
25. SAOC декодер по п.24, в котором SAOC дополнительная информация (106, 114) далее включает матрицу понижающего микширования, элементы которой указывают вес, посредством которого первый-третий звуковые сигналы вносят вклад в левый и правый каналы понижающего микширования SAOC стереосигнала понижающего микширования посредством суммирования, где первый звуковой сигнал вносит вклад в левый канал понижающего микширования, при этом не внося вклад в правый канал понижающего микширования, и второй звуковой сигнал вносит вклад в правый канал понижающего микширования, при этом не внося вклад в левый канал понижающего микширования, и третий звуковой сигнал микшируется между левым и правым каналами понижающего микширования, где ТТТ блок формируется, чтобы выполнять восстановление повышающего микширования, далее используя матрицу повышающего микширования.
RU2010114875/08A 2007-10-17 2008-10-17 Аудиокодирование с использованием понижающего микширования RU2452043C2 (ru)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US98057107P 2007-10-17 2007-10-17
US60/980,571 2007-10-17
US99133507P 2007-11-30 2007-11-30
US60/991,335 2007-11-30

Publications (2)

Publication Number Publication Date
RU2010114875A RU2010114875A (ru) 2011-11-27
RU2452043C2 true RU2452043C2 (ru) 2012-05-27

Family

ID=40149576

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2010112889/08A RU2474887C2 (ru) 2007-10-17 2008-10-17 Аудиокодирование с использованием повышающего микширования
RU2010114875/08A RU2452043C2 (ru) 2007-10-17 2008-10-17 Аудиокодирование с использованием понижающего микширования

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2010112889/08A RU2474887C2 (ru) 2007-10-17 2008-10-17 Аудиокодирование с использованием повышающего микширования

Country Status (12)

Country Link
US (4) US8155971B2 (ru)
EP (2) EP2082396A1 (ru)
JP (2) JP5883561B2 (ru)
KR (4) KR101244515B1 (ru)
CN (2) CN101849257B (ru)
AU (2) AU2008314030B2 (ru)
BR (2) BRPI0816556A2 (ru)
CA (2) CA2701457C (ru)
MX (2) MX2010004138A (ru)
RU (2) RU2474887C2 (ru)
TW (2) TWI395204B (ru)
WO (2) WO2009049895A1 (ru)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608847C1 (ru) * 2013-05-24 2017-01-25 Долби Интернешнл Аб Кодирование звуковых сцен
RU2628177C2 (ru) * 2013-05-24 2017-08-15 Долби Интернешнл Аб Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
RU2634422C2 (ru) * 2013-05-24 2017-10-27 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
RU2636093C2 (ru) * 2013-01-08 2017-11-20 Долби Интернешнл Аб Предсказание на основе модели в наборе фильтров с критической дискретизацией
US9892737B2 (en) 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
RU2648588C2 (ru) * 2013-10-22 2018-03-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ для декодирования и кодирования матрицы понижающего микширования, способ для представления аудиоконтента, кодер и декодер для матрицы понижающего микширования, аудиокодер и аудиодекодер
RU2648945C2 (ru) * 2012-07-02 2018-03-28 Сони Корпорейшн Декодирующее устройство, способ декодирования, кодирующее устройство, способ кодирования и программа
RU2677597C2 (ru) * 2013-10-09 2019-01-17 Сони Корпорейшн Способ и устройство кодирования, способ и устройство декодирования и программа
US10665246B2 (en) 2016-11-08 2020-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
US10971163B2 (en) 2013-05-24 2021-04-06 Dolby International Ab Reconstruction of audio scenes from a downmix
RU2820849C2 (ru) * 2013-01-08 2024-06-11 Долби Интернешнл Аб Предсказание на основе модели в наборе фильтров с критической дискретизацией

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
EP2111616B1 (en) 2007-02-14 2011-09-28 LG Electronics Inc. Method and apparatus for encoding an audio signal
EP2137824A4 (en) 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
CN103151047A (zh) * 2007-10-22 2013-06-12 韩国电子通信研究院 多对象音频解码方法
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010064877A2 (en) * 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2010085083A2 (en) 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN101930738B (zh) * 2009-06-18 2012-05-23 晨星软件研发(深圳)有限公司 多声道音频信号译码方法与装置
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
EP2446435B1 (en) 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
KR101370870B1 (ko) * 2009-12-16 2014-03-07 돌비 인터네셔널 에이비 Sbr 비트스트림 파라미터 다운믹스
KR101405976B1 (ko) * 2010-01-06 2014-06-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
WO2012121638A1 (en) * 2011-03-10 2012-09-13 Telefonaktiebolaget L M Ericsson (Publ) Filing of non-coded sub-vectors in transform coded audio signals
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
MY164164A (en) 2011-05-13 2017-11-30 Samsung Electronics Co Ltd Bit allocating, audio encoding and decoding
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
JP5715514B2 (ja) * 2011-07-04 2015-05-07 日本放送協会 オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
CN103493130B (zh) * 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
RU2643644C2 (ru) * 2012-07-09 2018-02-02 Конинклейке Филипс Н.В. Кодирование и декодирование аудиосигналов
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP6113282B2 (ja) * 2012-08-10 2017-04-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメトリックオーディオオブジェクトコーディングのための残差コンセプトを採用するエンコーダ、デコーダ、システム、および方法
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
WO2014159898A1 (en) 2013-03-29 2014-10-02 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN105612766B (zh) 2013-07-22 2018-07-27 弗劳恩霍夫应用研究促进协会 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
WO2015036350A1 (en) * 2013-09-12 2015-03-19 Dolby International Ab Audio decoding system and audio encoding system
TWI713018B (zh) 2013-09-12 2020-12-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
CN110634494B (zh) 2013-09-12 2023-09-01 杜比国际公司 多声道音频内容的编码
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
KR20160072131A (ko) * 2013-10-02 2016-06-22 슈트로밍스위스 게엠베하 다채널 신호의 다운믹스 및 다운믹스 신호의 업믹스 방법 및 장치
WO2015059153A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Parametric reconstruction of audio signals
JP6518254B2 (ja) 2014-01-09 2019-05-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コンテンツの空間的誤差メトリック
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
CN110895943B (zh) * 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置
CN106576204B (zh) * 2014-07-03 2019-08-20 杜比实验室特许公司 声场的辅助增大
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
EP3201918B1 (en) * 2014-10-02 2018-12-12 Dolby International AB Decoding method and decoder for dialog enhancement
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
JP6804528B2 (ja) * 2015-09-25 2020-12-23 ヴォイスエイジ・コーポレーション ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
CN112262433B (zh) 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
JP7504091B2 (ja) * 2018-11-02 2024-06-21 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびオーディオ・デコーダ
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US10779105B1 (en) 2019-05-31 2020-09-15 Apple Inc. Sending notification and multi-channel audio over channel limited link for independent gain control
AU2020291190B2 (en) 2019-06-14 2023-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Parameter encoding and decoding
GB2587614A (en) 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
EP4138396A4 (en) * 2020-05-21 2023-07-05 Huawei Technologies Co., Ltd. AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
RU2158478C2 (ru) * 1995-10-06 2000-10-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для кодирования звуковых сигналов

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US6611212B1 (en) 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
EP1375614A4 (en) 2001-03-28 2004-06-16 Mitsubishi Chem Corp COATING PROCESS WITH RADIATION CURABLE RESIN COMPOSITION AND LAMINATES
DE10163827A1 (de) 2001-12-22 2003-07-03 Degussa Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung
US8340302B2 (en) * 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
CA2514682A1 (en) 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
US7317601B2 (en) 2004-07-29 2008-01-08 United Microelectronics Corp. Electrostatic discharge protection device and circuit thereof
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
BRPI0608753B1 (pt) * 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20080010980A (ko) * 2006-07-28 2008-01-31 엘지전자 주식회사 부호화/복호화 방법 및 장치.
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101529504B (zh) * 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2158478C2 (ru) * 1995-10-06 2000-10-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для кодирования звуковых сигналов
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2648945C2 (ru) * 2012-07-02 2018-03-28 Сони Корпорейшн Декодирующее устройство, способ декодирования, кодирующее устройство, способ кодирования и программа
US10573330B2 (en) 2013-01-08 2020-02-25 Dolby International Ab Model based prediction in a critically sampled filterbank
US10102866B2 (en) 2013-01-08 2018-10-16 Dolby International Ab Model based prediction in a critically sampled filterbank
RU2820849C2 (ru) * 2013-01-08 2024-06-11 Долби Интернешнл Аб Предсказание на основе модели в наборе фильтров с критической дискретизацией
US11915713B2 (en) 2013-01-08 2024-02-27 Dolby International Ab Model based prediction in a critically sampled filterbank
RU2636093C2 (ru) * 2013-01-08 2017-11-20 Долби Интернешнл Аб Предсказание на основе модели в наборе фильтров с критической дискретизацией
US11651777B2 (en) 2013-01-08 2023-05-16 Dolby International Ab Model based prediction in a critically sampled filterbank
US10971164B2 (en) 2013-01-08 2021-04-06 Dolby International Ab Model based prediction in a critically sampled filterbank
US9892741B2 (en) 2013-01-08 2018-02-13 Dolby International Ab Model based prediction in a critically sampled filterbank
RU2742460C2 (ru) * 2013-01-08 2021-02-08 Долби Интернешнл Аб Предсказание на основе модели в наборе фильтров с критической дискретизацией
US11270709B2 (en) 2013-05-24 2022-03-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
US11580995B2 (en) 2013-05-24 2023-02-14 Dolby International Ab Reconstruction of audio scenes from a downmix
US10026408B2 (en) 2013-05-24 2018-07-17 Dolby International Ab Coding of audio scenes
RU2628177C2 (ru) * 2013-05-24 2017-08-15 Долби Интернешнл Аб Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука
RU2634422C2 (ru) * 2013-05-24 2017-10-27 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
US10347261B2 (en) 2013-05-24 2019-07-09 Dolby International Ab Decoding of audio scenes
US10468040B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US10468041B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US9818412B2 (en) 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
US9892737B2 (en) 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
US11682403B2 (en) 2013-05-24 2023-06-20 Dolby International Ab Decoding of audio scenes
US10468039B2 (en) 2013-05-24 2019-11-05 Dolby International Ab Decoding of audio scenes
US11894003B2 (en) 2013-05-24 2024-02-06 Dolby International Ab Reconstruction of audio scenes from a downmix
US10726853B2 (en) 2013-05-24 2020-07-28 Dolby International Ab Decoding of audio scenes
US11705139B2 (en) 2013-05-24 2023-07-18 Dolby International Ab Efficient coding of audio scenes comprising audio objects
RU2745832C2 (ru) * 2013-05-24 2021-04-01 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
US10971163B2 (en) 2013-05-24 2021-04-06 Dolby International Ab Reconstruction of audio scenes from a downmix
RU2608847C1 (ru) * 2013-05-24 2017-01-25 Долби Интернешнл Аб Кодирование звуковых сцен
US9852735B2 (en) 2013-05-24 2017-12-26 Dolby International Ab Efficient coding of audio scenes comprising audio objects
US11315577B2 (en) 2013-05-24 2022-04-26 Dolby International Ab Decoding of audio scenes
RU2677597C2 (ru) * 2013-10-09 2019-01-17 Сони Корпорейшн Способ и устройство кодирования, способ и устройство декодирования и программа
US11393481B2 (en) 2013-10-22 2022-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9947326B2 (en) 2013-10-22 2018-04-17 Fraunhofer-Gesellschaft zur Föderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US10468038B2 (en) 2013-10-22 2019-11-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
RU2648588C2 (ru) * 2013-10-22 2018-03-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ для декодирования и кодирования матрицы понижающего микширования, способ для представления аудиоконтента, кодер и декодер для матрицы понижающего микширования, аудиокодер и аудиодекодер
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
US11183196B2 (en) 2016-11-08 2021-11-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
US11670307B2 (en) 2016-11-08 2023-06-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
RU2727861C1 (ru) * 2016-11-08 2020-07-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Понижающий микшер и способ для понижающего микширования по меньшей мере двух каналов, и многоканальный кодировщик и многоканальный декодер
US10665246B2 (en) 2016-11-08 2020-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
RU2820946C1 (ru) * 2020-10-09 2024-06-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием расширения полосы пропускания

Also Published As

Publication number Publication date
US8538766B2 (en) 2013-09-17
KR101303441B1 (ko) 2013-09-10
AU2008314029B2 (en) 2012-02-09
JP5883561B2 (ja) 2016-03-15
TW200926147A (en) 2009-06-16
EP2076900A1 (en) 2009-07-08
CA2702986C (en) 2016-08-16
JP2011501823A (ja) 2011-01-13
TWI395204B (zh) 2013-05-01
CA2701457C (en) 2016-05-17
BRPI0816557B1 (pt) 2020-02-18
AU2008314029A1 (en) 2009-04-23
JP2011501544A (ja) 2011-01-06
US20130138446A1 (en) 2013-05-30
KR20120004547A (ko) 2012-01-12
KR101290394B1 (ko) 2013-07-26
KR20120004546A (ko) 2012-01-12
EP2082396A1 (en) 2009-07-29
CN101849257B (zh) 2016-03-30
KR101244515B1 (ko) 2013-03-18
CN101821799A (zh) 2010-09-01
KR101244545B1 (ko) 2013-03-18
WO2009049896A8 (en) 2010-05-27
RU2010112889A (ru) 2011-11-27
RU2010114875A (ru) 2011-11-27
WO2009049895A1 (en) 2009-04-23
BRPI0816556A2 (pt) 2019-03-06
US20090125313A1 (en) 2009-05-14
AU2008314030B2 (en) 2011-05-19
JP5260665B2 (ja) 2013-08-14
MX2010004220A (es) 2010-06-11
CN101849257A (zh) 2010-09-29
CN101821799B (zh) 2012-11-07
US20090125314A1 (en) 2009-05-14
US8407060B2 (en) 2013-03-26
RU2474887C2 (ru) 2013-02-10
BRPI0816557A2 (pt) 2016-03-01
KR20100063119A (ko) 2010-06-10
MX2010004138A (es) 2010-04-30
WO2009049896A9 (en) 2011-06-09
US8155971B2 (en) 2012-04-10
TW200926143A (en) 2009-06-16
CA2701457A1 (en) 2009-04-23
US20120213376A1 (en) 2012-08-23
KR20100063120A (ko) 2010-06-10
CA2702986A1 (en) 2009-04-23
WO2009049896A1 (en) 2009-04-23
WO2009049895A9 (en) 2009-10-29
AU2008314030A1 (en) 2009-04-23
TWI406267B (zh) 2013-08-21
US8280744B2 (en) 2012-10-02

Similar Documents

Publication Publication Date Title
RU2452043C2 (ru) Аудиокодирование с использованием понижающего микширования
US7916873B2 (en) Stereo compatible multi-channel audio coding
JP5592974B2 (ja) 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
CN106471575B (zh) 多信道音频信号处理方法及装置
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования