RU2665917C2 - Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов - Google Patents

Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов Download PDF

Info

Publication number
RU2665917C2
RU2665917C2 RU2016105755A RU2016105755A RU2665917C2 RU 2665917 C2 RU2665917 C2 RU 2665917C2 RU 2016105755 A RU2016105755 A RU 2016105755A RU 2016105755 A RU2016105755 A RU 2016105755A RU 2665917 C2 RU2665917 C2 RU 2665917C2
Authority
RU
Russia
Prior art keywords
audio
audio signals
rendering
signals
decorrelated
Prior art date
Application number
RU2016105755A
Other languages
English (en)
Other versions
RU2016105755A (ru
Inventor
Саша ДИШ
Харальд ФУКС
Оливер ХЕЛЛЬМУТ
Юрген ХЕРРЕ
Адриан МУРТАЗА
Йоуни ПАУЛУС
Фалько РИДДЕРБУШ
Леон ТЕРЕНТИВ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130189345 external-priority patent/EP2830334A1/en
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105755A publication Critical patent/RU2016105755A/ru
Application granted granted Critical
Publication of RU2665917C2 publication Critical patent/RU2665917C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен. Предоставляют один или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов. Предоставляют один или более параметров, описывающих взаимосвязь между входными аудиосигналами. Предоставляют параметр способа декорреляции, описывающий то, какой режим декорреляции должен использоваться на стороне аудиодекодера. Избирательно предоставляют параметр способа декорреляции для того, чтобы сигнализировать один из трех режимов работы аудиодекодера. Первый режим, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании этих аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами. Второй режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании этих аудиосигналов или их масштабированной версии с декоррелированными аудиосигналами. 10 н. и 38 з.п. ф-лы, 50 ил.

Description

Область техники, к которой относится изобретение
Варианты осуществления согласно изобретению относятся к многоканальному аудиодекодеру для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.
Дополнительные варианты осуществления согласно изобретению относятся к многоканальному аудиокодеру для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.
Дополнительные варианты осуществления согласно изобретению относятся к способу для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.
Дополнительные варианты осуществления согласно изобретению относятся к способу для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.
Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для осуществления одного из упомянутых способов.
Дополнительные варианты осуществления согласно изобретению относятся к кодированному аудиопредставлению.
Вообще говоря, варианты осуществления согласно настоящему изобретению относятся к принципу декорреляции для систем многоканального параметрического кодирования аудиообъектов с понижающим микшированием/повышающим микшированием.
Уровень техники
В последние годы, спрос на хранение и передачу аудиоконтента постоянно растет. Кроме того, также постоянно растут требования к качеству для хранения и передачи аудиоконтента. Соответственно, совершенствуются принципы для кодирования и декодирования аудиоконтента.
Например, разработано так называемое "усовершенствованное кодирование аудио" (AAC), которое описывается, например, в международном стандарте ISO/IEC 13818-7:2003. Кроме того, созданы некоторые пространственные расширения, такие как, например, так называемый принцип "на основе стандарта объемного звучания MPEG", который описывается, например, в международном стандарте ISO/IEC 23003-1:2007. Кроме того, дополнительные улучшения для кодирования и декодирования пространственной информации аудиосигналов описываются в международном стандарте ISO/IEC 23003-2:2010, который относится к так называемому "пространственному кодированию аудиообъектов".
Кроме того, принцип переключаемого кодирования/декодирования аудио, который предоставляет возможность кодировать как общие аудиосигналы, так и речевые сигналы с хорошей эффективностью кодирования и обрабатывать многоканальные аудиосигналы, задается в международном стандарте ISO/IEC 23003-3:2012, который описывает так называемый принцип "стандартизированного кодирования речи и аудио".
Кроме того, дополнительные традиционные принципы описываются в ссылочных материалах, которые упоминаются в конце настоящего описания.
Тем не менее, желательно предоставлять еще более усовершенствованный принцип для эффективного кодирования и декодирования трехмерных аудиосцен.
Сущность изобретения
Вариант осуществления согласно изобретению создает многоканальный аудиодекодер для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Многоканальный аудиодекодер выполнен с возможностью осуществлять рендеринг множества декодированных аудиосигналов, которые получаются на основе кодированного представления, в зависимости от одного или более параметров рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов. Многоканальный аудиодекодер выполнен с возможностью извлекать один или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов. Кроме того, многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы.
Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что качество звука может повышаться в многоканальном аудиодекодере посредством извлечения одного или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов, которые получаются на основе множества декодированных аудиосигналов, и посредством комбинирования представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы. Обнаружено, что более эффективно регулировать характеристики корреляции или характеристики ковариантности выходных аудиосигналов посредством суммирования декоррелированных сигналов после рендеринга по сравнению с суммированием декоррелированных сигналов перед рендерингом или во время рендеринга. Обнаружено, что этот принцип является более эффективным в общих случаях, в которых предусмотрено большее число декодированных аудиосигналов, которые вводятся в рендеринг, чем представленных посредством рендеринга аудиосигналов, поскольку большее число декорреляторов требуется в том случае, если декорреляция выполняется перед рендерингом или во время рендеринга. Кроме того, обнаружено, что зачастую предоставляются артефакты, когда декоррелированные сигналы суммируются с декодированными аудиосигналами перед рендерингом, поскольку рендеринг типично способствует комбинации декодированных аудиосигналов. Соответственно, принцип согласно настоящему варианту осуществления изобретения превосходит традиционные подходы, в которых декоррелированные сигналы суммируются перед рендерингом. Например, можно непосредственно оценивать требуемые характеристики корреляции или характеристики ковариантности представленных посредством рендеринга сигналов и адаптировать инициализацию декоррелированных аудиосигналов к фактически представленным посредством рендеринга сигналам, что приводит к лучшему компромиссу между эффективностью и качеством звука и зачастую даже приводит к повышенной эффективности и лучшему качеству одновременно.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью получать декодированные аудиосигналы, которые представляются посредством рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов, с использованием параметрического восстановления. Обнаружено, что принцип согласно настоящему изобретению способствует преимуществам в комбинации с параметрическим восстановлением аудиосигналов, при этом параметрическое восстановление, например, основано на вспомогательной информации, описывающей сигналы объектов и/или взаимосвязь между сигналами объектов (при этом сигналы объектов могут составлять декодированные аудиосигналы). Например, может быть сравнительно большое число сигналов объектов (декодированных аудиосигналов) в таком принципе, и обнаружено, что применение декорреляции на основе представленных посредством рендеринга аудиосигналов является очень эффективным и исключает артефакты в таком сценарии.
В предпочтительном варианте осуществления, декодированные аудиосигналы представляют собой восстановленные сигналы объектов (например, параметрически восстановленные сигналы объектов), и многоканальный аудиодекодер выполнен с возможностью извлекать восстановленные сигналы объектов из одного или более сигналов понижающего микширования с использованием вспомогательной информации. Соответственно, комбинация представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами, которые основаны на представленных посредством рендеринга аудиосигналах, предоставляет возможность эффективного восстановления характеристик корреляции или характеристик ковариантности в выходных аудиосигналах, даже если предусмотрено сравнительно большое число восстановленных сигналов объектов (которое может превышать число представленных посредством рендеринга аудиосигналов или выходных аудиосигналов).
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью извлекать коэффициенты обратного микширования из вспомогательной информации и применять коэффициенты обратного микширования, чтобы извлекать (параметрически) восстановленные сигналы объектов из одного или более сигналов понижающего микширования с использованием коэффициентов обратного микширования. Соответственно, входные сигналы для рендеринга могут извлекаться из вспомогательной информации, которая, например, может быть связанной с объектами вспомогательной информацией (такой как, например, информация межобъектной корреляции или информация разности уровней объектов, при этом идентичный результат может получаться посредством использования абсолютных энергий).
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами для того, чтобы, по меньшей мере, частично достигать требуемых характеристик корреляции или характеристик ковариантности выходных аудиосигналов. Обнаружено, что комбинация представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами, которые извлекаются из представленных посредством рендеринга аудиосигналов, предоставляет возможность регулирования (или восстановления) требуемых характеристик корреляции или характеристик ковариантности. Кроме того, обнаружено, что важно для слухового впечатления иметь надлежащие характеристики корреляции или характеристики ковариантности в выходном аудиосигнале, и что это может достигаться лучше всего посредством модификации представленных посредством рендеринга аудиосигналов с использованием декоррелированных аудиосигналов. Например, все ухудшения, вызываемые на предыдущих стадиях обработки, также могут учитываться при комбинировании представленных посредством рендеринга аудиосигналов и декоррелированных аудиосигналов на основе представленных посредством рендеринга аудиосигналов.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами для того, чтобы, по меньшей мере, частично компенсировать энергетические потери во время параметрического восстановления декодированных аудиосигналов, которые представляются посредством рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов. Обнаружено, что применение для пострендеринга декоррелированных аудиосигналов дает возможность корректировать дефекты сигналов, которые вызываются посредством обработки перед рендерингом, например, посредством параметрического восстановления декодированных аудиосигналов. Следовательно, необязательно восстанавливать характеристики корреляции или характеристики ковариантности декодированных аудиосигналов, которые вводятся в рендеринг, с высокой точностью. Это упрощает восстановление декодированных аудиосигналов и, следовательно, способствует высокой эффективности.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью определять требуемые характеристики корреляции характеристик ковариантности выходных аудиосигналов. Кроме того, многоканальный аудиодекодер выполнен с возможностью регулировать комбинацию представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы, так что характеристики корреляции или характеристики ковариантности полученных выходных аудиосигналов аппроксимируют или равны требуемым характеристикам корреляции или требуемым характеристикам ковариантности. Посредством вычисления (или определения) требуемых характеристик корреляции или характеристик ковариантности выходных аудиосигналов (которые должны быть достигнуты после комбинирования представленных посредством рендеринга аудиосигналов с декоррелированными аудиосигналами), можно регулировать характеристики корреляции или характеристики ковариантности на последующей стадии обработки, что, в свою очередь, обеспечивает возможность относительно точного восстановления. Соответственно, пространственное впечатление от прослушивания выходных аудиосигналов хорошо адаптировано к требуемому впечатлению от прослушивания.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью определять требуемые характеристики корреляции или требуемые характеристики ковариантности в зависимости от информации рендеринга, описывающей рендеринг множества декодированных аудиосигналов, которые получаются на основе кодированного представления, чтобы получать множество представленных посредством рендеринга аудиосигналов. Посредством учета процесса рендеринга в определении требуемых характеристик корреляции или требуемых характеристик ковариантности, можно достигать точной информации для регулирования комбинации представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами, что способствует возможности иметь выходные аудиосигналы, которые совпадают с требуемым впечатлением от прослушивания.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью определять требуемые характеристики корреляции или требуемые характеристики ковариантности в зависимости от информации корреляции объектов или информации ковариантности объектов, описывающей характеристики множества аудиообъектов и/или взаимосвязь между множеством аудиообъектов. Соответственно, можно восстанавливать характеристики корреляции или характеристики ковариантности, которые адаптированы к аудиообъектам, на последней стадии обработки, а именно, после рендеринга. Соответственно, уменьшается сложность для декодирования аудиообъектов. Кроме того, посредством учета характеристик корреляции или характеристик ковариантности аудиообъектов после рендеринга, может исключаться негативное влияние рендеринга, и характеристики корреляции или характеристики ковариантности могут быть восстановлены с хорошей точностью.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью определять информацию корреляции объектов или информацию ковариантности объектов на основе вспомогательной информации, включенной в кодированное представление. Соответственно, принцип может быть хорошо адаптирован к подходу на основе пространственного кодирования аудиообъектов, который использует вспомогательную информацию.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью определять фактические характеристики корреляции или характеристики ковариантности представленных посредством рендеринга аудиосигналов и регулировать комбинацию представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы в зависимости от фактических характеристик корреляции или характеристик ковариантности представленных посредством рендеринга аудиосигналов. Соответственно, можно добиться того, что могут учитываться неидеальности на более ранних стадиях обработки, такие как, например, энергетические потери при восстановлении аудиообъектов или неидеальности, вызываемые посредством рендеринга. Таким образом, комбинация представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами может очень точно регулироваться согласно потребностям таким образом, что комбинация фактических представленных посредством рендеринга аудиосигналов с декоррелированными аудиосигналами приводит к требуемым характеристикам.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами, при этом представленные посредством рендеринга аудиосигналы взвешены с использованием первой матрицы P микширования, и при этом один или более декоррелированных аудиосигналов взвешены с использованием второй матрицы M микширования. Это предоставляет возможность простого извлечения выходных аудиосигналов, при этом выполняется операция линейного комбинирования, которая описывается посредством матрицы P микширования, которая применяется к представленным посредством рендеринга аудиосигналам, и матрицы M микширования, которая применяется к одному или более декоррелированным аудиосигналам.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью регулировать, по меньшей мере, одну из матрицы P микширования и матрицы M микширования таким образом, что характеристики корреляции или характеристики ковариантности полученных выходных аудиосигналов аппроксимируют или равны требуемым характеристикам корреляции или требуемым характеристикам ковариантности. Таким образом, предусмотрен способ регулировать одну или более матриц микширования, что типично возможно с небольшими усилиями и хорошими результатами.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью объединенно вычислять матрицу P микширования и матрицу M микширования. Соответственно, можно получать матрицы микширования таким образом, что характеристики корреляции или характеристики ковариантности полученных выходных аудиосигналов могут задаваться таким образом, чтобы аппроксимировать или быть равными требуемым характеристикам корреляции или требуемым характеристикам ковариантности. Кроме того, при объединенном вычислении матрицы P микширования и матрицы M микширования, типично доступны определенные степени свободы, так что можно обеспечивать наилучшее соответствие матрицы P микширования и матрицы M микширования требованиям.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью получать комбинированную матрицу F микширования, которая содержит матрицу P микширования и матрицу M микширования, так что ковариационная матрица полученных выходных аудиосигналов равна требуемой ковариационной матрице.
В предпочтительном варианте осуществления, комбинированная матрица микширования может вычисляться в соответствии с уравнениями, описанными ниже.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью определять комбинированную матрицу F микширования с использованием матриц, которые определяются с использованием разложения по сингулярным значениям первой ковариационной матрицы, которая описывает представленный посредством рендеринга аудиосигнал и декоррелированный аудиосигнал, и второй ковариационной матрицы, которая описывает требуемые характеристики ковариантности выходных аудиосигналов. Использование такого разложения по сингулярным значениям составляет численно эффективное решение для определения комбинированной матрицы микширования.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью задавать матрицу P микширования как единичную матрицу или ее кратное и вычислять матрицу M микширования. Это исключает микширование различных представленных посредством рендеринга аудиосигналов, что помогает сохранять требуемое пространственное впечатление. Кроме того, уменьшается количество степеней свободы.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью определять матрицу M микширования таким образом, что разность между требуемой ковариационной матрицей и ковариационной матрицей представленных посредством рендеринга аудиосигналов аппроксимирует или равна ковариантности одного или более декоррелированных сигналов после микширования с матрицей M микширования. Таким образом, предусмотрен вычислительно простой принцип для получения матрицы M микширования.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью определять матрицу WI микширования с использованием матриц, которые определяются с использованием разложения по сингулярным значениям разности между требуемой ковариационной матрицей и ковариационной матрицей представленных посредством рендеринга аудиосигналов и ковариационной матрицы одного или более декоррелированных сигналов. Оно представляет собой вычислительно очень эффективный подход для определения матрицы M микширования.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью определять матрицы P, M микширования в соответствии с таким ограничением, что данный представленный посредством рендеринга аудиосигнал микшируется только с декоррелированной версией самого данного представленного посредством рендеринга аудиосигнала. Этот принцип ограничивается небольшой модификацией (например, при наличии неидеальных декорреляторов) или предотвращает модификацию характеристик взаимной корреляции или характеристик взаимной ковариантности (например, в случае идеальных декорреляторов) и может, следовательно, требоваться в некоторых случаях, чтобы исключать изменение воспринимаемой позиции объекта. Тем не менее, при наличии неидеальных декорреляторов, значения автокорреляции (или значения автоковариации) явно модифицируются, и изменения перекрестных членов игнорируются.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами таким образом, что только значения автокорреляции или значения автоковариации представленных посредством рендеринга аудиосигналов модифицируются, в то время как характеристики взаимной корреляции или характеристики взаимной ковариантности остаются немодифицированными или модифицированными с небольшим значением (например, при наличии неидеальных декорреляторов). С другой стороны, может исключаться ухудшение воспринимаемой позиции аудиообъектов. Кроме того, может уменьшаться вычислительная сложность. Тем не менее, например, значения взаимной ковариантности модифицируются как следствие модификации энергий (значений автокорреляции), но значения взаимной корреляции остаются немодифицированными (они представляют нормализованную версию значений взаимной ковариантности).
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью задавать матрицу P микширования как единичную матрицу или ее кратное и вычислять матрицу M микширования в соответствии с таким ограничением, что M является диагональной матрицей. Таким образом, модификация характеристик взаимной корреляции или характеристик взаимной ковариантности может исключаться или ограничиваться небольшим значением (например, при наличии неидеальных декорреляторов).
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами для того, чтобы получать выходной аудиосигнал, при этом диагональная матрица M применяется к одному или более декоррелированным аудиосигналам W. В этом случае, многоканальный аудиодекодер выполнен с возможностью вычислять диагональные элементы матрицы M микширования таким образом, что диагональные элементы ковариационной матрицы выходных аудиосигналов равны требуемым энергиям. Соответственно, энергетические потери, которые могут получаться посредством операции рендеринга и/или посредством восстановления аудиообъектов на основе одного или более сигналов понижающего микширования и вспомогательной пространственной информации, могут компенсироваться. Таким образом, может достигаться надлежащая интенсивность выходных аудиосигналов.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью вычислять элементы матрицы M микширования в зависимости от диагональных элементов требуемой ковариационной матрицы, диагональных элементов ковариационной матрицы представленных посредством рендеринга аудиосигналов и диагональных элементов ковариационной матрицы одного или более декоррелированных сигналов. Внедиагональные элементы матрицы WI микширования могут задаваться равными нулю, и требуемая ковариационная матрица может вычисляться на основе матрицы рендеринга, используемой для операции рендеринга и ковариационной матрицы объектов. Кроме того, пороговое значение может использоваться для того, чтобы ограничивать величину декорреляции, суммируемой с сигналами. Этот принцип предусматривает очень вычислительно эффективное определение элементов матрицы M микширования.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью учитывать характеристики корреляции или характеристики ковариантности декоррелированных аудиосигналов при определении того, как комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами. Соответственно, могут учитываться неидеальности декорреляции.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью микшировать представленные посредством рендеринга аудиосигналы и декоррелированные аудиосигналы, так что данный выходной аудиосигнал предоставляется на основе двух или более представленных посредством рендеринга аудиосигналов и, по меньшей мере, одного декоррелированного аудиосигнала. Посредством использования этого принципа, характеристики взаимной корреляции могут эффективно регулироваться без необходимости вводить большие количества декоррелированных сигналов (что может ухудшать слуховое пространственное впечатление).
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью переключаться между различными режимами, в которых различные ограничения применяются для определения того, как комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы. Соответственно, сложность и характеристики обработки могут регулироваться для сигналов, которые обрабатываются.
В предпочтительном варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью переключаться между первым режимом, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, вторым режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и третьим режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал. Таким образом, как сложность, так и характеристики обработки могут регулироваться согласно типу аудиосигнала, который в данный момент представляется посредством рендеринга. Модификация только характеристик автокорреляции или характеристик автоковариантности и отсутствие явной модификации характеристик взаимной корреляции или характеристик взаимной ковариантности, например, могут быть полезными, если пространственное впечатление аудиосигналов ухудшается посредством такой модификации, при этом, тем не менее, желательно регулировать интенсивность выходных аудиосигналов. С другой стороны, возникают случаи, в которых желательно регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов. Многоканальный аудиодекодер, упомянутый здесь, предоставляет возможность такого регулирования, при котором в первом режиме, можно комбинировать представленные посредством рендеринга аудиосигналы таким образом, что величина (или интенсивность) декоррелированных компонентов сигналов, которая требуется для регулирования характеристик взаимной корреляции или характеристик взаимной ковариантности, является сравнительно небольшой. Таким образом, "локализуемые" компоненты сигналов используются в первом режиме, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности. Напротив, во втором режиме, декоррелированные сигналы используются для того, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности, что естественно способствует различному впечатлению от прослушивания. Соответственно, посредством предоставления трех различных режимов, аудиодекодер может быть хорошо адаптирован к обрабатываемому аудиоконтенту.
В предпочтительном варианте осуществления, многоканальный аудиодекодер выполнен с возможностью оценивать элемент потока битов кодированного представления, указывающего то, какой из трех режимов для комбинирования представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами должен использоваться, и выбирать режим в зависимости от упомянутого элемента потока битов. Соответственно, аудиокодер может сигнализировать надлежащий режим в зависимости от своих знаний аудиоконтента. Таким образом, максимальное качество выходных аудиосигналов может достигаться при любых обстоятельствах.
Вариант осуществления согласно изобретению создает многоканальный аудиокодер для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Многоканальный аудиокодер выполнен с возможностью предоставлять один или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов. Кроме того, многоканальный аудиокодер выполнен с возможностью предоставлять один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами. Помимо этого, многоканальный аудиокодер выполнен с возможностью предоставлять параметр способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиокодера. Соответственно, многоканальный аудиокодер может управлять аудиодекодером, чтобы использовать надлежащий режим декорреляции, который хорошо адаптирован к типу аудиосигнала, который в данный момент кодируется. Таким образом, многоканальный аудиокодер, описанный здесь, хорошо адаптирован для взаимодействия с многоканальным аудиодекодером, поясненным выше.
В предпочтительном варианте осуществления, многоканальный аудиокодер выполнен с возможностью избирательно предоставлять параметр способа декорреляции для того, чтобы сигнализировать один из следующих трех режимов для работы аудиодекодера: первый режим, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, второй режим, в котором не разрешается микширование между различными из представленных посредством рендеринга аудиосигналов при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, и в котором разрешается комбинирование данного декоррелированного аудиосигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и третий режим, в котором не разрешается микширование между различными из представленных посредством рендеринга аудиосигналов при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами, и в котором не разрешается комбинирование данного декоррелированного аудиосигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный аудиосигнал. Таким образом, многоканальный аудиокодер может переключать многоканальный аудиодекодер через вышеописанные три режима в зависимости от аудиоконтента, при этом режим, в котором работает многоканальный аудиодекодер, может быть хорошо адаптирован посредством многоканального аудиокодера к типу текущего кодированного аудиоконтента. Тем не менее, в некоторых вариантах осуществления, могут использоваться (или могут быть доступными) только один или два из вышеуказанных трех режимов для работы аудиодекодера.
В предпочтительном варианте осуществления, многоканальный аудиокодер выполнен с возможностью выбирать параметр способа декорреляции в зависимости от того, содержат входные аудиосигналы сравнительно высокую корреляцию или сравнительно более низкую корреляцию. Таким образом, адаптация декорреляции, которая используется в декодере, может выполняться на основе важной характеристики аудиосигналов, которые в данный момент кодируются.
В предпочтительном варианте осуществления, многоканальный аудиокодер выполнен с возможностью выбирать параметр способа декорреляции для того, чтобы обозначать первый режим или второй режим, если корреляция или ковариантность между входными аудиосигналами является сравнительно высокой, и выбирать параметр способа декорреляции для того, чтобы обозначать третий режим, если корреляция или ковариантность между входными аудиосигналами является сравнительно более низкой. Соответственно, в случае сравнительно небольшой корреляции или ковариантности между входными аудиосигналами, выбирается режим декодирования, в котором отсутствует коррекция характеристик взаимной ковариантности или характеристик взаимной корреляции. Обнаружено, что это представляет собой эффективный выбор для сигналов, имеющих сравнительно низкую корреляцию (или ковариантность), поскольку такие сигналы являются практически независимыми, что исключает необходимость адаптации взаимных корреляций или взаимных ковариантностей. Наоборот, регулирование взаимных корреляций или взаимных ковариантностей для практически независимых входных аудиосигналов (имеющих сравнительно небольшую корреляцию или ковариантность) типично должно ухудшать качество звука и одновременно увеличивать сложность декодирования. Таким образом, этот принцип предоставляет возможность обоснованной адаптации многоканального аудиодекодера к сигналу, вводимому в многоканальный аудиокодер.
Вариант осуществления согласно изобретению создает способ для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Способ содержит рендеринг множества декодированных аудиосигналов, которые получаются на основе кодированного представления, в зависимости от одного или более параметров рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов. Способ также содержит извлечение одного или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов и комбинирование представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы. Этот способ основан на соображениях, идентичных соображениям для вышеописанного многоканального аудиодекодера. Кроме того, способ может дополняться посредством любых из признаков и функциональностей, поясненных выше относительно многоканального аудиодекодера.
Другой вариант осуществления согласно изобретению создает способ для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Способ содержит предоставление одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов, предоставление одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и предоставление параметра способа декорреляции, описывающего то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Этот способ основан на соображениях, идентичных соображениям для вышеописанного многоканального аудиокодера. Кроме того, способ может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального аудиокодера.
Другой вариант осуществления согласно изобретению создает компьютерную программу для осуществления одного или более способов, описанных выше.
Другой вариант осуществления согласно изобретению создает кодированное аудиопредставление, содержащее кодированное представление сигнала понижающего микширования, кодированное представление одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и кодированный параметр способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Это кодированное аудиопредставление дает возможность сигнализировать надлежащий режим декорреляции и, следовательно, помогает реализовывать преимущества, описанные относительно многоканального аудиокодера и многоканального аудиодекодера.
Краткое описание чертежей
Далее описываются варианты осуществления согласно настоящему изобретению со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1 показывает принципиальную блок-схему многоканального аудиодекодера, согласно варианту осуществления настоящего изобретения;
Фиг. 2 показывает принципиальную блок-схему многоканального аудиокодера, согласно варианту осуществления настоящего изобретения;
Фиг. 3 показывает блок-схему последовательности операций способа для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно варианту осуществления изобретения;
Фиг. 4 показывает блок-схему последовательности операций способа для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно варианту осуществления настоящего изобретения;
Фиг. 5 показывает схематичное представление кодированного аудиопредставления, согласно варианту осуществления настоящего изобретения;
Фиг. 6 показывает принципиальную блок-схему многоканального декоррелятора, согласно варианту осуществления настоящего изобретения;
Фиг. 7 показывает принципиальную блок-схему многоканального аудиодекодера, согласно варианту осуществления настоящего изобретения;
Фиг. 8 показывает принципиальную блок-схему многоканального аудиокодера, согласно варианту осуществления настоящего изобретения;
Фиг. 9 показывает блок-схему последовательности операций способа для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, согласно варианту осуществления настоящего изобретения;
Фиг. 10 показывает блок-схему последовательности операций способа для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно варианту осуществления настоящего изобретения;
Фиг. 11 показывает блок-схему последовательности операций способа для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно варианту осуществления настоящего изобретения;
Фиг. 12 показывает схематичное представление кодированного представления, согласно варианту осуществления настоящего изобретения.
Фиг. 13 показывает схематичное представление, которое предоставляет общее представление принципа параметрического понижающего микширования/повышающего микширования на основе MMSE;
Фиг. 14 показывает геометрическое представление для принципа ортогональности в трехмерном пространстве;
Фиг. 15 показывает принципиальную блок-схему системы параметрического восстановления с декорреляцией, применяемой к представленному посредством рендеринга выводу, согласно варианту осуществления настоящего изобретения;
Фиг. 16 показывает принципиальную блок-схему модуля декорреляции;
Фиг. 17 показывает принципиальную блок-схему модуля декорреляции с меньшей сложностью, согласно варианту осуществления настоящего изобретения;
Фиг. 18 показывает табличное представление позиций громкоговорителей, согласно варианту осуществления настоящего изобретения;
Фиг. 19a-19g показывают табличные представления коэффициентов предварительного микширования для N=22 и K между 5 и 11;
Фиг. 20a-20d показывают табличные представления коэффициентов предварительного микширования для N=10 и K между 2 и 5;
Фиг. 21a-21c показывают табличные представления коэффициентов предварительного микширования для N=8 и K между 2 и 4;
Фиг. 21d-21f показывают табличные представления коэффициентов предварительного микширования для N=7 и K между 2 и 4;
Фиг. 22a и 22b показывают табличные представления коэффициентов предварительного микширования для N=5 и K=2 или K=3;
Фиг. 23 показывает табличное представление коэффициентов предварительного микширования для N=2 и K=1;
Фиг. 24 показывает табличное представление групп сигналов каналов;
Фиг. 25 показывает синтаксическое представление дополнительных параметров, которые могут быть включены в синтаксис SAOCSpecifigConfig() или, эквивалентно, SAOC3DSpecificConfig();
Фиг. 26 показывает табличное представление различных значений для переменной bsDecorrelationMethod потока битов;
Фиг. 27 показывает табличное представление числа декорреляторов для различных уровней декорреляции и выходных конфигураций, указываемых посредством переменной bsDecorrelationLevel потока битов;
Фиг. 28 показывает, в форме принципиальной блок-схемы, общее представление касательно трехмерного аудиокодера;
Фиг. 29 показывает, в форме принципиальной блок-схемы, общее представление касательно трехмерного аудиодекодера; и
Фиг. 30 показывает принципиальную блок-схему структуры преобразователя форматов;
Фиг. 31 показывает принципиальную блок-схему процессора понижающего микширования, согласно варианту осуществления настоящего изобретения;
Фиг. 32 показывает таблицу, представляющую режимы декодирования для различного числа объектов SAOC-понижающего микширования; и
Фиг. 33 показывает синтаксическое представление элемента SAOC3DSpecificConfig потока битов.
Подробное описание вариантов осуществления
1. Многоканальный аудиодекодер согласно фиг. 1
Фиг. 1 показывает принципиальную блок-схему многоканального аудиодекодера 100 согласно варианту осуществления настоящего изобретения.
Многоканальный аудиодекодер 100 выполнен с возможностью принимать кодированное представление 110 и предоставлять, на его основе, по меньшей мере, два выходных аудиосигнала 112, 114.
Многоканальный аудиодекодер 100 предпочтительно содержит декодер 120, который выполнен с возможностью предоставлять декодированные аудиосигналы 122 на основе кодированного представления 110. Кроме того, многоканальный аудиодекодер 100 содержит модуль 130 рендеринга, который выполнен с возможностью осуществлять рендеринг множества декодированных аудиосигналов 122, которые получаются на основе кодированного представления 110 (например, посредством декодера 120) в зависимости от одного или более параметров 132 рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов 134, 136. Кроме того, многоканальный аудиодекодер 100 содержит декоррелятор 140, который выполнен с возможностью извлекать один или более декоррелированных аудиосигналов 142, 144 из представленных посредством рендеринга аудиосигналов 134, 136. Кроме того, многоканальный аудиодекодер 100 содержит модуль 150 комбинирования, который выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы 134, 136 или их масштабированную версию с одним или более декоррелированными аудиосигналами 142, 144, чтобы получать выходные аудиосигналы 112, 114.
Тем не менее, следует отметить, что другая аппаратная структура многоканального аудиодекодера 100 может быть возможной при условии, что предоставлены функциональности, описанные выше.
Относительно функциональности многоканального аудиодекодера 100 следует отметить, что декоррелированные аудиосигналы 142, 144 извлекаются из представленных посредством рендеринга аудиосигналов 134, 136, и что декоррелированные аудиосигналы 142, 144 комбинированы с представленными посредством рендеринга аудиосигналами 134, 136, чтобы получать выходные аудиосигналы 112, 114. Посредством извлечения декоррелированных аудиосигналов 142, 144 из представленных посредством рендеринга аудиосигналов 134, 136 может достигаться очень эффективная обработка, поскольку число представленных посредством рендеринга аудиосигналов 134, 136 типично является независимым от числа декодированных аудиосигналов 122, которые вводятся в модуль 130 рендеринга. Таким образом, усилия по декорреляции являются типично независимыми от числа декодированных аудиосигналов 122, что повышает эффективность реализации. Кроме того, применение декорреляции после рендеринга исключает введение артефактов, которые могут вызываться посредством модуля рендеринга при комбинировании нескольких декоррелированных сигналов в случае, если декорреляция применяется перед рендерингом. Кроме того, характеристики представленных посредством рендеринга аудиосигналов могут учитываться при декорреляции, выполняемой посредством декоррелятора 140, что типично приводит к выходным аудиосигналам хорошего качества.
Кроме того, следует отметить, что многоканальный аудиодекодер 100 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе. В частности, следует отметить, что отдельные улучшения, как описано в данном документе, могут вводиться в многоканальный аудиодекодер 100, чтобы за счет этого даже повышать эффективность обработки и/или качество выходных аудиосигналов.
2. Многоканальный аудиокодер согласно фиг. 2
Фиг. 2 показывает принципиальную блок-схему многоканального аудиокодера 200, согласно варианту осуществления настоящего изобретения. Многоканальный аудиокодер 200 выполнен с возможностью принимать два или более входных аудиосигналов 210, 212 и предоставлять, на их основе, кодированное представление 214. Многоканальный аудиокодер содержит модуль 220 предоставления сигналов понижающего микширования, который выполнен с возможностью предоставлять один или более сигналов 222 понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 210, 212. Кроме того, многоканальный аудиокодер 200 содержит модуль 230 предоставления параметров, который выполнен с возможностью предоставлять один или более параметров 232, описывающих взаимосвязь (например, взаимную корреляция, взаимную ковариантность, разность уровней и т.п.), по меньшей мере, между двумя входными аудиосигналами 210, 212.
Кроме того, многоканальный аудиокодер 200 также содержит модуль 240 предоставления параметров способа декорреляции, который выполнен с возможностью предоставлять параметр 242 способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Один или более сигналов 222 понижающего микширования, один или более параметров 232 и параметр 242 способа декорреляции включены, например, в кодированной форме, в кодированное представление 214.
Тем не менее, следует отметить, что аппаратная структура многоканального аудиокодера 200 может отличаться при условии, что удовлетворяются функциональности, как описано выше. Другими словами, распределение функциональностей многоканального аудиокодера 200 в отдельные блоки (например, в модуль 220 предоставления сигналов понижающего микширования, в модуль 230 предоставления параметров и в модуль 240 предоставления параметров способа декорреляции) должно рассматриваться только в качестве примера.
Относительно функциональности многоканального аудиокодера 200 следует отметить, что один или более сигналов 222 понижающего микширования и один или более параметров 232 предоставляются традиционным способом, например, как в многоканальном SAOC-аудиокодере или в многоканальном USAC-аудиокодере. Тем не менее, параметр 242 способа декорреляции, который также предоставляется посредством многоканального аудиокодера 200 и включен в кодированное представление 214, может использоваться для того, чтобы адаптировать режим декорреляции к входным аудиосигналам 210, 212 или к требуемому качеству воспроизведения. Соответственно, режим декорреляции может быть адаптирован к различным типам аудиоконтента. Например, различные режимы декорреляции могут быть выбраны для типов аудиоконтента, в которых входные аудиосигналы 210, 212 сильно коррелируются, и для типов аудиоконтента, в которых входные аудиосигналы 210, 212 являются независимыми. Кроме того, различные режимы декорреляции, например, могут сигнализироваться посредством параметра 242 режима декорреляции для типов аудиоконтента, в которых пространственное восприятие является очень важным, и для типов аудиоконтента, в которых пространственное впечатление является менее важным или даже имеет второстепенную важность (например, по сравнению с воспроизведением отдельных каналов). Соответственно, многоканальный аудиодекодер, который принимает кодированное представление 214, может управляться посредством многоканального аудиокодера 200 и может задаваться в режим декодирования, который способствует наилучшему компромиссу между качеством воспроизведения и сложностью декодирования.
Кроме того, следует отметить, что многоканальный аудиокодер 200 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе. Следует отметить, что возможные дополнительные признаки и улучшения, описанные в данном документе, могут добавляться в многоканальный аудиокодер 200 по отдельности или в комбинации, чтобы за счет этого улучшать (или совершенствовать) многоканальный аудиокодер 200.
3. Способ для предоставления, по меньшей мере, двух выходных аудиосигналов согласно фиг. 3
Фиг. 3 показывает блок-схему последовательности операций способа 300 для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления. Способ содержит рендеринг 310 множества декодированных аудиосигналов, которые получаются на основе кодированного представления 312, в зависимости от одного или более параметров рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов. Способ 300 также содержит извлечение 320 одного или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов. Способ 300 также содержит комбинирование 330 представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы 332.
Следует отметить, что способ 300 основан на соображениях, идентичных соображениям для многоканального аудиодекодера 100 согласно фиг. 1. Кроме того, следует отметить, что способ 300 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе (по отдельности или в комбинации). Например, способ 300 может дополняться посредством любых из признаков и функциональностей, описанных относительно многоканальных аудиодекодеров, описанных в данном документе.
4. Способ для предоставления кодированного представления согласно фиг. 4
Фиг. 4 показывает блок-схему последовательности операций способа 400 для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов. Способ 400 содержит предоставление 410 одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 412. Способ 400 дополнительно содержит предоставление 420 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами 412, и предоставление 430 параметра способа декорреляции, описывающего то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Соответственно, предоставляется кодированное представление 432, которое предпочтительно включает в себя кодированное представление одного или более сигналов понижающего микширования, одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и параметра способа декорреляции.
Следует отметить, что способ 400 основан на соображениях, идентичных соображениям для многоканального аудиокодера 200 согласно фиг. 2, так что вышеприведенные пояснения также применимы.
Кроме того, следует отметить, что порядок этапов 410, 420, 430 может гибко варьироваться, и что этапы 410, 420, 430 также могут выполняться параллельно, насколько это является возможным в среде выполнения для способа 400. Кроме того, следует отметить, что способ 400 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе по отдельности или в комбинации. Например, способ 400 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальных аудиокодеров. Тем не менее, также можно вводить признаки и функциональности, которые соответствуют признакам и функциональностям многоканальных аудиодекодеров, описанных в данном документе, которые принимают кодированное представление 432.
5. Кодированное аудиопредставление согласно фиг. 5
Фиг. 5 показывает схематичное представление кодированного аудиопредставления 500 согласно варианту осуществления настоящего изобретения.
Кодированное аудиопредставление 500 содержит кодированное представление 510 сигнала понижающего микширования, кодированное представление 520 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя аудиосигналами. Кроме того, кодированное аудиопредставление 500 также содержит кодированный параметр 530 способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера. Соответственно, кодированное аудиопредставление дает возможность сигнализировать режим декорреляции из аудиокодера в аудиодекодер. Соответственно, можно получать режим декорреляции, который хорошо адаптирован к характеристикам аудиоконтента (который описывается, например, посредством кодированного представления 510 одного или более сигналов понижающего микширования и посредством кодированного представления 520 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя аудиосигналами (например, по меньшей мере, между двумя аудиосигналами, которые микшированы с понижением в кодированное представление 510 одного или более сигналов понижающего микширования)). Таким образом, кодированное аудиопредставление 500 предоставляет возможность рендеринга аудиоконтента, представленного посредством кодированного аудиопредставления 500, с очень хорошим слуховым пространственным впечатлением и/или очень хорошим компромиссом между слуховым пространственным впечатлением и сложностью декодирования.
Кроме того, следует отметить, что кодированное представление 500 может дополняться посредством любых из признаков и функциональностей, описанных относительно многоканальных аудиокодеров и многоканальных аудиодекодеров, по отдельности или в комбинации.
6. Многоканальный декоррелятор согласно фиг. 6
Фиг. 6 показывает принципиальную блок-схему многоканального декоррелятора 600, согласно варианту осуществления настоящего изобретения.
Многоканальный декоррелятор 600 выполнен с возможностью принимать первый набор из N входных сигналов 610a-610n декоррелятора и предоставлять, на их основе, второй набор из N' выходных сигналов 612a-612n' декоррелятора. Другими словами, многоканальный декоррелятор 600 выполнен с возможностью предоставления множества (по меньшей мере, приблизительно) декоррелированных сигналов 612a-612n' на основе входных сигналов 610a-610n декоррелятора.
Многоканальный декоррелятор 600 содержит предварительный микшер 620, который выполнен с возможностью предварительно микшировать первый набор из N входных сигналов 610a-610n декоррелятора во второй набор из K входных сигналов 622a-622k декоррелятора, где K меньше N (причем K и N являются целыми числами). Многоканальный декоррелятор 600 также содержит ядро 630 декорреляции (или декоррелятора), которое выполнено с возможностью предоставлять первый набор из K' выходных сигналов 632a-632k' декоррелятора на основе второго набора из K входных сигналов 622a-622k декоррелятора. Кроме того, многоканальный декоррелятор содержит постмикшер 640, который выполнен с возможностью повышающе микшировать первый набор из K' выходных сигналов 632a-632k' декоррелятора во второй набор из N' выходных сигналов 612a-612n' декоррелятора, где N' превышает K' (при этом N' и K' являются целыми числами).
Тем не менее, следует отметить, что данная структура многоканального декоррелятора 600 должна рассматриваться только в качестве примера, и что необязательно подразделять многоканальный декоррелятор 600 на функциональные блоки (например, на предварительный микшер 620, ядро 630 декорреляции или декоррелятора и постмикшер 640) при условии, что функциональность, описанная в данном документе, предоставляется.
Относительно функциональности многоканального декоррелятора 600, также следует отметить, что принцип выполнения предварительного микширования, чтобы извлекать второй набор из K входных сигналов декоррелятора из первого набора N входных сигналов декоррелятора, и выполнения декорреляции на основе (предварительно микшированного или "микшированного с понижением") второго набора из K входных сигналов декоррелятора способствует уменьшению сложности, по сравнению с принципом, в котором фактическая декорреляция применяется, например, непосредственно к N входных сигналов декоррелятора. Кроме того, второй (повышающе микшированный) набор из N' выходных сигналов декоррелятора получается на основе первого (исходного) набора выходных сигналов декоррелятора, которые являются результатом фактической декорреляции, на основе постмикширования, которое может выполняться посредством повышающего микшера 640. Таким образом, многоканальный декоррелятор 600 эффективно (при просмотре извне) принимает N входных сигналов декоррелятора и предоставляет, на их основе, N' выходных сигналов декоррелятора, в то время как фактическое ядро 630 декоррелятора работает только для меньшего числа сигналов (а именно, K микшированных с понижением входных сигналов 622a-622k декоррелятора из второго набора из K входных сигналов декоррелятора). Таким образом, сложность многоканального декоррелятора 600 может быть существенно уменьшена, по сравнению с традиционными декорреляторами, посредством выполнения понижающего микширования или "предварительного микширования" (которое предпочтительно может представлять собой линейное предварительное микширование без функциональности декорреляции) на входной стороне ядра 630 декорреляции (или декоррелятора) и посредством выполнения повышающего микширования или "постмикширования" (например, линейного повышающего микширования без дополнительной функциональности декорреляции) на основе (исходных) выходных сигналов 632a-632k' ядра 630 декорреляции (декоррелятора).
Кроме того, следует отметить, что многоканальный декоррелятор 600 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальной декорреляции, а также относительно многоканальных аудиодекодеров. Следует отметить, что признаки, описанные в данном документе, могут добавляться в многоканальный декоррелятор 600 по отдельности или в комбинации, чтобы за счет этого улучшать или совершенствовать многоканальный декоррелятор 600.
Следует отметить, что многоканальный декоррелятор без уменьшения сложности может извлекаться из вышеописанного многоканального декоррелятора для K=N (и возможно K'=N' или даже K=N=K'=N').
7. Многоканальный аудиодекодер согласно фиг. 7
Фиг. 7 показывает принципиальную блок-схему многоканального аудиодекодера 700, согласно варианту осуществления изобретения.
Многоканальный аудиодекодер 700 выполнен с возможностью принимать кодированное представление 710 и предоставлять, на его основе, по меньшей мере, два выходных сигнала 712, 714. Многоканальный аудиодекодер 700 содержит многоканальный декоррелятор 720, который может быть практически идентичным многоканальному декоррелятору 600 согласно фиг. 6. Кроме того, многоканальный аудиодекодер 700 может содержать любые из признаков и функциональностей многоканального аудиодекодера, которые известны для специалистов в данной области техники или которые описываются в данном документе относительно других многоканальных аудиодекодеров.
Кроме того, следует отметить, что многоканальный аудиодекодер 700 содержит, в частности, высокую эффективность, по сравнению с традиционными многоканальными аудиодекодерами, поскольку многоканальный аудиодекодер 700 использует высокоэффективный многоканальный декоррелятор 720.
8. Многоканальный аудиокодер согласно фиг. 8
Фиг. 8 показывает принципиальную блок-схему многоканального аудиокодера 800, согласно варианту осуществления настоящего изобретения. Многоканальный аудиокодер 800 выполнен с возможностью принимать, по меньшей мере, два входных аудиосигнала 810, 812 и предоставлять, на их основе, кодированное представление 814 аудиоконтента, представленного посредством входных аудиосигналов 810, 812.
Многоканальный аудиокодер 800 содержит модуль 820 предоставления сигналов понижающего микширования, который выполнен с возможностью предоставлять один или более сигналов 822 понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 810, 812. Многоканальный аудиокодер 800 также содержит модуль 830 предоставления параметров, который выполнен с возможностью предоставлять один или более параметров 832 (например, параметров взаимной корреляции или параметров взаимной ковариантности, или параметров межобъектной корреляции, и/или параметров разности уровней объектов) на основе входных аудиосигналов 810, 812. Кроме того, многоканальный аудиокодер 800 содержит модуль 840 предоставления параметров сложности декорреляции, который выполнен с возможностью предоставлять параметр 842 сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера (который принимает кодированное представление 814). Один или более сигналов 822 понижающего микширования, один или более параметров 832 и параметр 842 сложности декорреляции включены в кодированное представление 814, предпочтительно в кодированной форме.
Тем не менее, следует отметить, что внутренняя структура многоканального аудиокодера 800 (например, присутствие модуля 820 предоставления сигналов понижающего микширования, модуля 830 предоставления параметров и модуля 840 предоставления параметров сложности декорреляции) должна рассматриваться только в качестве примера. Различные структуры являются возможными при условии, что функциональность, описанная в данном документе, достигается.
Относительно функциональности многоканального аудиокодера 800 следует отметить, что многоканальный кодер предоставляет кодированное представление 814, при этом один или более сигналов 822 понижающего микширования и один или более параметров 832 могут быть аналогичными или равными сигналам и параметрам понижающего микширования, предоставленным посредством традиционных аудиокодеров (таких как, например, традиционные SAOC-аудиокодеры или USAC-аудиокодеры). Тем не менее, многоканальный аудиокодер 800 также выполнен с возможностью предоставлять параметр 842 сложности декорреляции, который дает возможность определять сложность декорреляции, которая применяется на стороне аудиодекодера. Соответственно, сложность декорреляции может быть адаптирована к аудиоконтенту, который в данный момент кодируется. Например, можно сигнализировать требуемую сложность декорреляции, которая соответствует достижимому качеству звука в зависимости от знаний на стороне кодера относительно характеристик входных аудиосигналов. Например, если обнаружено, что пространственные характеристики являются важными для аудиосигнала, более высокая сложность декорреляции может сигнализироваться, с использованием параметра 842 сложности декорреляции, по сравнению со случаем, в котором пространственные характеристики не являются настолько важными. Альтернативно, использование высокой сложности декорреляции может сигнализироваться с использованием параметра 842 сложности декорреляции, если обнаружено, что прохождение аудиоконтента или всего аудиоконтента является таким, что декорреляция с высокой сложностью требуется на стороне аудиодекодера по другим причинам.
Если обобщать, многоканальный аудиокодер 800 предоставляет возможность управлять многоканальным аудиодекодером таким образом, чтобы использовать сложность декорреляции, которая адаптирована к характеристикам сигналов или требуемым характеристикам воспроизведения, которые могут задаваться посредством многоканального аудиокодера 800.
Кроме того, следует отметить, что многоканальный аудиокодер 800 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального аудиокодера, по отдельности или в комбинации. Например, некоторые или все признаки, описанные в данном документе относительно многоканальных аудиокодеров, могут добавляться в многоканальный аудиокодер 800. Кроме того, многоканальный аудиокодер 800 может быть выполнен с возможностью взаимодействия с многоканальными аудиодекодерами, описанными в данном документе.
9. Способ для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора, согласно фиг. 9
Фиг. 9 показывает блок-схему последовательности операций способа 900 для предоставления множества декоррелированных сигналов на основе множества входных сигналов декоррелятора.
Способ 900 содержит предварительное микширование 910 первого набора из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K меньше N. Способ 900 также содержит предоставление 920 первого набора из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Например, первый набор из K' выходных сигналов декоррелятора может предоставляться на основе второго набора из K входных сигналов декоррелятора с использованием декорреляции, которая может выполняться, например, с использованием ядра декоррелятора или с использованием алгоритма декорреляции. Способ 900 дополнительно содержит постмикширование 930 первого набора из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N' превышает K' (при этом N' и K' являются целыми числами). Соответственно, второй набор из N' выходных сигналов декоррелятора, которые являются выводом способа 900, может предоставляться на основе первого набора N входных сигналов декоррелятора, которые являются вводом в способ 900.
Следует отметить, что способ 900 основан на соображениях, идентичных соображениям для многоканального декоррелятора, описанного выше. Кроме того, следует отметить, что способ 900 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального декоррелятора (и также относительно многоканального аудиокодера, если применимо), по отдельности или в комбинации.
10. Способ для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, согласно фиг. 10
Фиг. 10 показывает блок-схему последовательности операций способа 1000 для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления.
Способ 1000 содержит предоставление 1010, по меньшей мере, двух выходных аудиосигналов 1014, 1016 на основе кодированного представления 1012. Способ 1000 содержит предоставление 1020 множества декоррелированных сигналов на основе множества входных сигналов декоррелятора в соответствии со способом 900 согласно фиг. 9.
Следует отметить, что способ 1000 основан на соображениях, идентичных соображениям для многоканального аудиодекодера 700 согласно фиг. 7.
Кроме того, следует отметить, что способ 1000 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканальных декодеров, по отдельности или в комбинации.
11. Способ для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, согласно фиг. 11
Фиг. 11 показывает блок-схему последовательности операций способа 1100 для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов.
Способ 1100 содержит предоставление 1110 одного или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов 1112, 1114. Способ 1100 также содержит предоставление 1120 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами 1112, 1114. Кроме того, способ 1100 содержит предоставление 1130 параметра сложности декорреляции, описывающего сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Соответственно, кодированное представление 1132 предоставляется на основе, по меньшей мере, двух входных аудиосигналов 1112, 1114, при этом кодированное представление типично содержит один или более сигналов понижающего микширования, один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и параметр сложности декорреляции в кодированной форме.
Следует отметить, что этапы 1110, 1120, 1130 могут выполняться параллельно или в другом порядке в некоторых вариантах осуществления согласно изобретению. Кроме того, следует отметить, что способ 1100 основан на соображениях, идентичных соображениям для многоканального аудиокодера 800 согласно фиг. 8, и что способ 1100 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно многоканального аудиокодера, в комбинации или по отдельности. Кроме того, следует отметить, что способ 1100 может быть выполнен с возможностью соответствовать многоканальному аудиодекодеру и способу для предоставления, по меньшей мере, двух выходных аудиосигналов, описанными в данном документе.
12. Кодированное аудиопредставление согласно фиг. 12
Фиг. 12 показывает схематичное представление кодированного аудиопредставления, согласно варианту осуществления настоящего изобретения. Кодированное аудиопредставление 1200 содержит кодированное представление 1210 сигнала понижающего микширования, кодированное представление 1220 одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и кодированный параметр 1230 сложности декорреляции, описывающий сложность декорреляции, которая должна использоваться на стороне аудиодекодера. Соответственно, кодированное аудиопредставление 1200 дает возможность регулировать сложность декорреляции, используемую посредством многоканального аудиодекодера, что способствует повышенной эффективности декодирования и возможно повышенному качеству звука или улучшенному компромиссу между эффективностью кодирования и качеством звука. Кроме того, следует отметить, что кодированное аудиопредставление 1200 может предоставляться посредством многоканального аудиокодера, как описано в данном документе, и может использоваться посредством многоканального аудиодекодера, как описано в данном документе. Соответственно, кодированное аудиопредставление 1200 может дополняться посредством любых из признаков, описанных относительно многоканальных аудиокодеров и относительно многоканальных аудиодекодеров.
13. Система обозначений и базовые соображения
В последнее время, параметрические технологии для эффективной по скорости передачи битов передачи/хранения аудиосцен, содержащих несколько аудиообъектов, предложены в области техники кодирования аудио (см., например, ссылочные материалы [BCC], [АО], [SAOC], [SAOC1], [SAOC2]) и информированного разделения источников (см., например, ссылочные материалы [ISS1], [ISS2], [ISS3], [ISS4], [ISS5], [ISS6]). Эти технологии направлены на восстановление требуемой выходной аудиосцены или исходного аудиообъекта на основе дополнительной вспомогательной информации, описывающей передаваемую/сохраненную аудиосцену и/или исходные объекты в аудиосцене. Это восстановление осуществляется в декодере с использованием схемы параметрического информированного разделения источников. Кроме того, также следует обратиться к так называемому принципу "на основе стандарта объемного звучания MPEG", который описывается, например, в международном стандарте ISO/IEC 23003-1:2007. Кроме того, также следует обратиться к так называемому "пространственному кодированию аудиообъектов", которое описывается в международном стандарте ISO/IEC 23003-2:2010. Кроме того, следует обратиться к так называемому принципу "стандартизированного кодирования речи и аудио", который описывается в международном стандарте ISO/IEC 23003-3:2012. Принципы из этих стандартов могут использоваться в вариантах осуществления согласно изобретению, например, в многоканальных аудиокодерах, упомянутых в данном документе, и в многоканальных аудиодекодерах, упомянутых в данном документе, при этом могут требоваться некоторые адаптации.
Далее описывается некоторая исходная информация. В частности, общее представление схем параметрического разделения предоставляется с использованием примера технологии пространственного кодирования аудиообъектов (SAOC) по стандарту MPEG (см., например, ссылочный материал [SAOC]). Рассматриваются математические свойства этого способа.
13.1. Система обозначений и определения
Следующая система математических обозначений применяется в текущем документе:
Figure 00000001
число сигналов аудиообъектов
Figure 00000002
число (обработанных) каналов понижающего микширования
Figure 00000003
число (выходных) каналов повышающего микширования
Figure 00000004
число обработанных выборок данных
D матрица понижающего микширования, размер
Figure 00000005
X входной сигнал аудиообъекта, размер
Figure 00000006
Figure 00000007
ковариационная матрица объектов, размер
Figure 00000008
, задана как
Figure 00000009
Y аудиосигнал понижающего микширования, размер
Figure 00000010
, задан как y=dx
Figure 00000011
ковариационная матрица сигналов понижающего микширования, размер
Figure 00000012
, задана как
Figure 00000013
G матрица оценки параметрических источников, размер
Figure 00000014
, которая аппроксимирует
Figure 00000015
Figure 00000016
параметрически восстановленный сигнал объекта, размер
Figure 00000006
, который аппроксимирует X и задается как
Figure 00000017
R матрица рендеринга (указывается на стороне декодера), размер
Figure 00000018
Z идеальный представленный посредством рендеринга выходной сигнал сцены, размер
Figure 00000019
, задана как z=RX
Figure 00000020
представленный посредством рендеринга параметрический вывод, размер
Figure 00000021
, задан как
Figure 00000022
C ковариационная матрица идеального вывода, размер
Figure 00000023
, задана как
Figure 00000024
w: выводы декоррелятора, размер
Figure 00000021
S комбинированный сигнал
Figure 00000025
, размер
Figure 00000026
Figure 00000027
ковариационная матрица комбинированных сигналов, размер
Figure 00000028
, задана как
Figure 00000029
Figure 00000030
конечный вывод, размер
Figure 00000021
Figure 00000031
самосопряженный (эрмитов) оператор, который представляет комплексно-сопряженное транспонирование
Figure 00000032
. Также может использоваться обозначение
Figure 00000033
.
Figure 00000034
функция декоррелятора
Figure 00000035
аддитивная постоянная или постоянная ограничения (например, используемая в операции определения "максимума" или операции max), чтобы не допускать деления на нуль
13.2. Системы параметрического разделения
Общие системы параметрического разделения нацелены на оценку числа аудиоисточников из смеси сигналов (понижающего микширования) с использованием вспомогательной информации параметров (такой как, например, информация значений межканальной корреляции, значений межканальной разности уровней, значений межобъектной корреляции и/или разности уровней объектов). Стандартное решение этой задачи основано на применении алгоритмов оценки на основе минимальной среднеквадратической ошибки (MMSE). SAOC-технология является одним примером таких систем параметрического кодирования/декодирования аудио.
Фиг. 13 показывает общий принцип архитектуры SAOC-кодера/декодера. Другими словами, фиг. 13 показывает, в форме принципиальной блок-схемы, общее представление принципа параметрического понижающего микширования/повышающего микширования на основе MMSE.
Кодер 1310 принимает множество сигналов 1312a, 1312b-1312n объектов. Кроме того, кодер 1310 также принимает параметры D микширования, 1314, которые, например, могут представлять собой параметры понижающего микширования. Кодер 1310 предоставляет, на их основе, один или более сигналов 1316a, 1316b понижающего микширования и т.д. Кроме того, кодер предоставляет вспомогательную информацию 1318. Один или более сигналов понижающего микширования и вспомогательная информация, например, могут предоставляться в кодированной форме.
Кодер 1310 содержит микшер 1320, который типично выполнен с возможностью принимать сигналы 1312a-1312n объектов и комбинировать (например, микшировать с понижением) сигналы 1312a-1312n объектов в один или более сигналов 1316a, 1316b понижающего микширования в зависимости от параметров 1314 микширования. Кроме того, кодер содержит модуль 1330 оценки вспомогательной информации, который выполнен с возможностью извлекать вспомогательную информацию 1318 из сигналов 1312a-1312n объектов. Например, модуль 1330 оценки вспомогательной информации может быть выполнен с возможностью извлекать вспомогательную информацию 1318 таким образом, что вспомогательная информация описывает взаимосвязь между сигналами объектов, например, взаимную корреляцию между сигналами объектов (которая может обозначаться как "межобъектная корреляция (IOC)"), и/или информацию, описывающую разность уровней между сигналами объектов (которая может обозначаться как "информация разности уровней объектов (OLD)").
Один или более сигналов 1316a, 1316b понижающего микширования и вспомогательная информация 1318 могут сохраняться и/или передаваться в декодер 1350, что указывается по ссылке с номером 1340.
Декодер 1350 принимает один или более сигналов 1316a, 1316b понижающего микширования и вспомогательную информацию 1318 (например, в кодированной форме) и предоставляет, на их основе, множество выходных аудиосигналов 1352a-1352n. Декодер 1350 также может принимать информацию 1354 пользовательского взаимодействия, которая может содержать один или более параметров R рендеринга (которые могут задавать матрицу рендеринга). Декодер 1350 содержит модуль 1360 разделения параметрических объектов, процессор 1370 вспомогательной информации и модуль 1380 рендеринга. Процессор 1370 вспомогательной информации принимает вспомогательную информацию 1318 и предоставляет, на ее основе, управляющую информацию 1372 для модуля 1360 разделения параметрических объектов. Модуль 1360 разделения параметрических объектов предоставляет множество сигналов 1362a-1362n объектов на основе сигналов 1360a, 1360b понижающего микширования и управляющей информации 1372, которая извлекается из вспомогательной информации 1318 посредством процессора 1370 вспомогательной информации. Например, модуль разделения объектов может выполнять декодирование кодированных сигналов понижающего микширования и разделение объектов. Модуль 1380 рендеринга представляет посредством рендеринга восстановленные сигналы объектов 1362a-1362n, чтобы за счет этого получать выходные аудиосигналы 1352a-1352n.
Далее поясняется функциональность принципа параметрического понижающего микширования/повышающего микширования на основе MMSE.
Общая обработка параметрического понижающего микширования/повышающего микширования выполняется частотно-временным избирательным способом и может описываться как последовательность следующих этапов:
- В "кодер" 1310 предоставляются входные "аудиообъекты" x и "параметры D микширования". "Микшер" 1320 микширует с понижением "аудиообъекты" x в число "сигналов Y понижающего микширования" с использованием "параметров D микширования" (например, усилений при понижающем микшировании). "Модуль оценки вспомогательной информации" извлекает вспомогательную информацию 1318, описывающую характеристики входных "аудиообъектов" x (например, свойства ковариантности).
- "Сигналы Y понижающего микширования" и вспомогательная информация передаются или сохраняются. Эти аудиосигналы понижающего микширования дополнительно могут сжиматься с использованием аудиокодеров (таких как MPEG-1/2 уровня II или III, усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4, стандартизированное кодирование речи и аудио (USAC) MPEG и т.д.). Вспомогательная информация также может быть представлена и кодирована эффективно (например, в качестве кодированных без потерь отношений мощностей объектов и коэффициентов корреляции объектов).
- "Декодер" 1350 восстанавливает исходные "аудиообъекты" из декодированных "сигналов понижающего микширования" с использованием передаваемой вспомогательной информации 1318. "Процессор 1370 вспомогательной информации" оценивает коэффициенты 1372 обратного микширования, которые должны применяться к "сигналам понижающего микширования" в "модуле 1360 разделения параметрических объектов", чтобы получать восстановление параметрических объектов x. Восстановленные "аудиообъекты" 1362a-1362n представляются посредством рендеринга в (многоканальную) целевую сцену, представленную посредством выходных каналов Z, посредством применения "параметров R 1354 рендеринга".
Кроме того, следует отметить, что функциональности, описанные относительно кодера 1310 и декодера 1350, могут использоваться в других аудиокодерах и аудиодекодерах, описанных в данном документе также.
13.3. Принцип ортогональности оценки на основе минимальной среднеквадратической ошибки
Принцип ортогональности является одним главным свойством модулей MMSE-оценки. Рассмотрим два гильбертовых пространства W и V, при этом V охватывается посредством набора векторов yi, и вектор
Figure 00000036
. Если требуется находить оценку
Figure 00000037
, которая аппроксимирует x в качестве линейной комбинации векторов
Figure 00000038
, при минимизации среднеквадратической ошибки, то вектор ошибок является ортогональным в пространстве, охватываемом посредством векторов yi.
Figure 00000039
Как следствие, ошибка оценки и сама оценка являются ортогональными:
Figure 00000040
Геометрически можно визуализировать это посредством примеров, показанных на фиг. 14.
Фиг. 14 показывает геометрическое представление для принципа ортогональности в трехмерном пространстве. Как можно видеть, векторное пространство охватывается посредством векторов y1, y2. Вектор x равен сумме вектора
Figure 00000041
и разностного вектора e (или вектора ошибок). Как можно видеть, вектор e ошибок является ортогональным к векторному пространству V (или плоскости), охватываемому посредством векторов y1 и y2.
Соответственно, вектор
Figure 00000042
может рассматриваться как наилучшее приближение x в векторном пространстве V.
13.4. Ошибка параметрического восстановления
При задании матрицы, содержащей N сигналов (x), и обозначении ошибки оценки как
Figure 00000043
, могут формулироваться следующие идентификаторы. Исходный сигнал может представляться как сумма параметрического восстановления
Figure 00000044
и ошибки
Figure 00000045
восстановления следующим образом:
Figure 00000046
Вследствие принципа ортогональности, ковариационная матрица
Figure 00000047
исходных сигналов может формулироваться в качестве суммы ковариационной матрицы
Figure 00000048
восстановленных сигналов и ковариационной матрицы
Figure 00000049
ошибок оценки следующим образом:
Figure 00000050
Когда входные объекты x не находятся в пространстве, охватываемом посредством каналов понижающего микширования (например, число каналов понижающего микширования меньше числа входных сигналов), и входные объекты не могут представляться как линейные комбинации каналов понижающего микширования, алгоритмы на основе MMSE вводят неточность
Figure 00000051
восстановления.
13.5. Межобъектная корреляция
В слуховой системе, взаимная ковариантность (когерентность/корреляция) тесно связана с восприятием огибания как окружения посредством звука, а также с воспринимаемой шириной источника звука. Например, в системах на основе SAOC параметры межобъектной корреляции (IOC) используются для определения характеристик этого свойства:
Figure 00000052
Рассмотрим пример воспроизведения источника звука с использованием двух аудиосигналов. Если значение IOC является близким к единице, звук воспринимается как хорошо локализованный точечный источник. Если значение IOC является близким к нулю, воспринимаемая ширина источника звука увеличивается, и для крайних случаев, он может даже восприниматься как два различных источника [Blauert, глава 3].
13.6. Компенсация неточности восстановления
В случае неидеального параметрического восстановления выходной сигнал может демонстрировать более низкую энергию по сравнению с исходными объектами. Ошибка в диагональных элементах ковариационной матрицы может приводить к звуковым разностям уровней и ошибке во внедиагональных элементах в искаженном пространственном звуковом изображении (по сравнению с идеальным опорным выводом). Предложенный способ имеет цель разрешать эту проблему.
В стандарте объемного звучания MPEG (MPS), например, эта проблема исследуется только для некоторых конкретных сценариев канальной обработки, а именно, для моно/стереопонижающего микширования и ограниченных статических выходных конфигураций (например, моно, стерео, 5.1, 7.1 и т.д.). В объектно-ориентированных технологиях, таких как SAOC, которая также использует моно/стереопонижающее микширование, эта проблема исследуется посредством применения рендеринга с MPS-постобработкой только для выходной 5.1-конфигурации.
Существующие решения ограничены стандартными выходными конфигурациями и фиксированным числом входных/выходных каналов. А именно, они реализованы в качестве последовательного применения нескольких блоков, реализующих просто способы канальной декорреляции "моно-в-стерео" (или "стерео-в-три").
Следовательно, требуется общее решение (например, способ коррекции свойств энергетического уровня и корреляции) для компенсации неточности параметрического восстановления, которое может применяться для гибкого числа каналов понижающего микширования/выходных каналов и произвольных выходных конфигурационных компоновок.
13.7. Заключения
В качестве вывода, предоставлено общее представление в отношении системы обозначений. Кроме того, описана система параметрического разделения, на которой основаны варианты осуществления согласно изобретению. Кроме того, указано то, что принцип ортогональности применяется к оценке на основе минимальной среднеквадратической ошибки. Кроме того, предоставлено уравнение для вычисления ковариационной матрицы
Figure 00000053
, которое применяется при наличии ошибки
Figure 00000054
восстановления. Кроме того, предоставлена взаимосвязь между так называемыми значениями межобъектной корреляции и элементами ковариационной матрицы
Figure 00000055
, которая может применяться, например, в вариантах осуществления согласно изобретению, чтобы извлекать требуемые характеристики ковариантности (или характеристики корреляции) из значений межобъектной корреляции (которые могут быть включены в параметрическую вспомогательную информацию) и возможно формировать разности уровней объектов. Кроме того, указано то, что характеристики восстановленных сигналов объектов могут отличаться от требуемых характеристик вследствие неидеального восстановления. Кроме того, указано то, что существующие решения для разрешения проблемы ограничены некоторыми конкретными выходными конфигурациями и основываются на конкретной комбинации стандартных блоков, что делает традиционные решения негибкими.
14. Вариант осуществления согласно фиг. 15
14.1. Общее представление принципа
Варианты осуществления согласно изобретению расширяют способы параметрического MMSE-восстановления, используемые в схемах параметрического аудиоразделения с решением по декорреляции для произвольного числа каналов понижающего микширования/повышающего микширования. Варианты осуществления согласно изобретению, такие как, например, изобретаемое устройство и изобретательский способ, могут компенсировать энергетические потери во время параметрического восстановления и восстанавливать свойства корреляции оцененных объектов.
Фиг. 15 предоставляет общее представление принципа параметрического понижающего микширования/повышающего микширования с интегрированным трактом декорреляции. Другими словами, фиг. 15 показывает, в форме принципиальной блок-схемы, систему параметрического восстановления с декорреляцией, применяемую для представленного посредством рендеринга вывода.
Система согласно фиг. 15 содержит кодер 1510, который является практически идентичным кодеру 1310 согласно фиг. 13. Кодер 1510 принимает множество сигналов 1512a-1512n объектов и предоставляет, на их основе, один или более сигналов 1516a, 1516b понижающего микширования, а также вспомогательную информацию 1518. Сигналы 1516a, 1515b понижающего микширования могут быть практически идентичными сигналам 1316a, 1316b понижающего микширования и может обозначаться как Y. Вспомогательная информация 1518 может быть практически идентичной вспомогательной информации 1318. Тем не менее, вспомогательная информация, например, может содержать параметр режима декорреляции или параметр способа декорреляции, или параметр сложности декорреляции. Кроме того, кодер 1510 может принимать параметры 1514 микширования.
Система параметрического восстановления также содержит передачу и/или хранение одного или более сигналов 1516a, 1516b понижающего микширования и вспомогательной информации 1518, при этом передача и/или хранение обозначены с помощью 1540, и при этом один или более сигналов 1516a, 1516b понижающего микширования и вспомогательная информация 1518 (которая может включать в себя параметрическую вспомогательную информацию) могут кодироваться.
Кроме того, система параметрического восстановления согласно фиг. 15 содержит декодер 1550 1550, который выполнен с возможностью принимать передаваемые или сохраненные один или более (возможно кодированных) сигналов 1516a, 1516b понижающего микширования и передаваемую или сохраненную (возможно кодированную) вспомогательную информацию 1518 и предоставлять, на их основе, выходные аудиосигналы 1552a-1552n. Декодер 1550 (который может рассматриваться как многоканальный аудиодекодер) содержит модуль 1560 разделения параметрических объектов и процессор 1570 вспомогательной информации. Кроме того, декодер 1550 содержит модуль 1580 рендеринга, декоррелятор 1590 и микшер 1598.
Модуль 1560 разделения параметрических объектов выполнен с возможностью принимать один или более сигналов 1516a, 1516b понижающего микширования и управляющую информацию 1572, которая предоставляется посредством процессора 1570 вспомогательной информации на основе вспомогательной информации 1518, и предоставлять, на их основе, сигналы 1562a-1562n объектов, которые также обозначены с X и которые могут рассматриваться как декодированные аудиосигналы. Управляющая информация 1572, например, может содержать коэффициенты обратного микширования, которые должны применяться к сигналам понижающего микширования (например, к декодированным сигналам понижающего микширования, извлекаемым из кодированных сигналов 1516a, 1516b понижающего микширования) в модуле разделения параметрических объектов, чтобы получать восстановленные сигналы объектов (например, декодированные аудиосигналы 1562a-1562n). Модуль 1580 рендеринга представляет посредством рендеринга декодированные аудиосигналы 1562a-1562n (которые могут быть восстановленными сигналами объектов и которые, например, могут соответствовать входным сигналам 1512a-1512n объектов), чтобы за счет этого получать множество представленных посредством рендеринга аудиосигналов 1582a-1582n. Например, модуль 1580 рендеринга может учитывать параметры R рендеринга, которые, например, могут предоставляться посредством пользовательского взаимодействия и которые, например, могут задавать матрицу рендеринга. Тем не менее, альтернативно параметры рендеринга могут извлекаться из кодированного представления (которое может включать в себя кодированные сигналы 1516a, 1516b понижающего микширования и кодированную вспомогательную информацию 1518).
Декоррелятор 1590 выполнен с возможностью принимать представленные посредством рендеринга аудиосигналы 1582a-1582n и предоставлять, на их основе, декоррелированные аудиосигналы 1592a-1592n, которые также обозначены с помощью W. Микшер 1598 принимает представленные посредством рендеринга аудиосигналы 1582a-1582n и декоррелированные аудиосигналы 1592a-1592n и комбинирует представленные посредством рендеринга аудиосигналы 1582a-1582n и декоррелированные аудиосигналы 1592a-1592n, чтобы за счет этого получать выходные аудиосигналы 1552a-1552n. Микшер 1598 также может использовать управляющую информацию 1574, которая извлекается посредством процессора 1570 вспомогательной информации из кодированной вспомогательной информации 1518, как описано ниже.
14.2. Функция декоррелятора
Далее описываются некоторые подробности относительно декоррелятора 1590. Тем не менее, следует отметить, что могут использоваться другие принципы декоррелятора, некоторые из которых описываются ниже.
В варианте осуществления, функция
Figure 00000056
декоррелятора предоставляет выходной сигнал w, который является ортогональным к входному сигналу
Figure 00000057
. Выходной сигнал w имеет равные (входному сигналу
Figure 00000058
) свойства спектральной и временной огибающей (или, по меньшей мере, аналогичные свойства). Кроме того, сигнал w воспринимается аналогично и имеет субъективное качество, идентичное (или аналогичное) субъективному качеству входного сигнала
Figure 00000058
(см., например, [SAOC2]).
В случае нескольких входных сигналов, предпочтительно, если функция декорреляции формирует несколько выводов, которые являются взаимно ортогональными (т.е.
Figure 00000059
, так что
Figure 00000060
для всех i и j, и
Figure 00000061
для
Figure 00000062
).
Точное подробное описание для реализации функции декоррелятора находится за рамками объема этого описания. Например, декорреляторы на основе гребенки из нескольких фильтров с бесконечной импульсной характеристикой (HR), указываемые в стандарте объемного звучания MPEG, могут быть использованы в целях декорреляции [MPS].
Общие декорреляторы, описанные в этом описании, предположительно являются идеальными. Это подразумевает то, что (в дополнение к перцепционным требованиям) вывод каждого декоррелятора является ортогональным для своего ввода и для вывода всех других декорреляторов. Следовательно, для данного ввода
Figure 00000063
с ковариантностью
Figure 00000064
и вывода
Figure 00000065
справедливы следующие свойства ковариационных матриц:
Figure 00000066
Из этих взаимосвязей следует, что:
Figure 00000067
Вывод W декоррелятора может использоваться для того, чтобы компенсировать неточность прогнозирования в модуле MMSE-оценки (следует напомнить, что ошибка прогнозирования является ортогональной к прогнозированным сигналам) посредством использования прогнозированных сигналов в качестве вводов.
При этом следует отметить, что ошибки прогнозирования в общем случае не являются ортогональными между собой. Таким образом, одна цель идеи изобретения (например, способа) состоит в том, чтобы создавать смесь "сухого" (т.е. входного декоррелятора) сигнала (например, представленных посредством рендеринга аудиосигналов 1582a-1582n) и "мокрого" (т.е. выходного декоррелятора) сигнала (например, декоррелированных аудиосигналов 1592a-1592n), так что ковариационная матрица результирующей смеси (например, выходных аудиосигналов 1552a-1552n) становится аналогичной ковариационной матрице требуемого вывода.
Кроме того, следует отметить, что может использоваться уменьшение сложности для модуля декорреляции, которое подробно описывается ниже и которое может способствовать некоторым неидеальностям декоррелированного сигнала, которые, тем не менее, могут быть приемлемыми.
14.3. Коррекция выходной ковариантности с использованием декоррелированных сигналов
Далее описывается принцип для того, чтобы регулировать характеристики ковариантности выходных аудиосигналов 1552a-1552n, чтобы получать достаточно хорошее впечатление от прослушивания.
Предложенный способ для коррекции ошибок выходной ковариантности составляет выходной сигнал
Figure 00000068
(например, выходные аудиосигналы 1552a-1552n) в качестве взвешенной суммы параметрически восстановленного сигнала
Figure 00000069
(например, представленных посредством рендеринга аудиосигналов 1582a-1582n) и его декоррелированной части W. Эта сумма может представляться следующим образом:
Figure 00000070
Тем не менее, следует отметить, что это уравнение может считаться самым общим формулированием. К вышеприведенной формуле необязательно может применяться изменение, которое является (или которое может задаваться) допустимым для всех "упрощенных способов", описанных в данном документе.
Матрицы P микширования, применяемая к прямому сигналу
Figure 00000071
, и M, применяемая к декоррелированному сигналу W, имеют следующую структуру (при этом
Figure 00000072
, где
Figure 00000073
обозначает число представленных посредством рендеринга аудиосигналов, которое может быть равно числу выходных аудиосигналов):
Figure 00000074
При применении обозначения для комбинированной матрицы
Figure 00000075
и сигнал
Figure 00000076
в результате получается:
Figure 00000077
Тем не менее, альтернативно может применяться уравнение:
Figure 00000078
,
как подробнее описано ниже.
С использованием этого представления, ковариационная матрица
Figure 00000079
выходного сигнала
Figure 00000080
задается следующим образом:
Figure 00000081
Целевая ковариация C идеальной созданной представленной посредством рендеринга выходной сцены задается следующим образом:
Figure 00000082
Матрица F микширования вычисляется таким образом, что ковариационная матрица
Figure 00000083
конечного вывода аппроксимирует или равна целевой ковариации C следующим образом:
Figure 00000084
Матрица F микширования вычисляется, например, в качестве функции известных величин
Figure 00000085
следующим образом:
Figure 00000086
где матрицы U, T и V, Q могут определяться, например, с использованием разложения по сингулярным значениям (SVD) ковариационных матриц
Figure 00000087
и C, что дает в результате:
Figure 00000088
Прототипная матрица H может быть выбрана согласно требуемым взвешиваниям для трактов передачи прямых и декоррелированных сигналов.
Например, возможная прототипная матрица H может определяться следующим образом:
Figure 00000089
Далее предоставляются некоторые математические извлечения для общей структуры матрицы F.
Другими словами, ниже описывается извлечение матрицы F микширования для общего решения.
Ковариационные матрицы
Figure 00000090
и C могут выражаться с использованием, например, разложения по сингулярным значениям (SVD) следующим образом:
Figure 00000091
где T и Q являются диагональными матрицами с сингулярными значениями C и
Figure 00000092
, соответственно, и U и V являются унитарными матрицами, содержащими соответствующие сингулярные векторы.
Следует отметить, что применение триангуляции Шура или разложения по собственным значениям (вместо SVD) приводит к аналогичным результатам (или даже идентичным результатам, если диагональные матрицы Q и T ограничены положительными значениями).
При применении этого разложения к требованию
Figure 00000093
, в результате получается (по меньшей мере, приблизительно):
Figure 00000094
Чтобы следить за размерностью ковариационных матриц, в некоторых случаях требуется регуляризация. Например, может применяться прототипная матрица H размера
Figure 00000095
с таким свойством, что
Figure 00000096
:
Figure 00000097
Из этого следует, что матрица F микширования может определяться следующим образом:
Figure 00000098
Прототипная матрица H выбрана согласно требуемым взвешиваниям для трактов передачи прямых и декоррелированных сигналов. Например, возможная прототипная матрица H может определяться следующим образом:
Figure 00000099
В зависимости от состояния ковариационной матрицы
Figure 00000100
комбинированных сигналов, последнее уравнение, возможно, должно включать в себя некоторую регуляризацию, но в иных отношениях оно должно быть численно стабильным.
В качестве вывода, описан принцип для того, чтобы извлекать выходные аудиосигналы (представленные посредством матрицы
Figure 00000101
или эквивалентно, посредством вектора
Figure 00000102
) на основе представленных посредством рендеринга аудиосигналов (представленных посредством матрицы
Figure 00000103
или эквивалентно, вектора
Figure 00000058
) и декоррелированных аудиосигналов (представленных посредством матрицы W или эквивалентно, вектора w). Как можно видеть, обычно определяются две матрицы P и M микширования общей матричной структуры. Например, комбинированная матрица F, как задано выше, может определяться таким образом, что ковариационная матрица
Figure 00000104
выходных аудиосигналов 1552a-1562n аппроксимирует или равна требуемой ковариантности C (также обозначаемой как "целевая ковариантность"). Требуемая ковариационная матрица C, например, может извлекаться на основе знаний матрицы R рендеринга (которые могут предоставляться, например, посредством пользовательского взаимодействия) и на основе знаний ковариационной матрицы
Figure 00000105
объектов, которые, например, могут извлекаться на основе кодированной вспомогательной информации 1518. Например, ковариационная матрица
Figure 00000106
объектов может извлекаться с использованием значений межобъектной корреляции (IOC), которые описываются выше и которые могут быть включены в кодированную вспомогательную информацию 1518. Таким образом, целевая ковариационная матрица C, например, может предоставляться посредством процессора 1570 вспомогательной информации в качестве информации 1574 или в качестве части информации 1574.
Тем не менее, альтернативно процессор 1570 вспомогательной информации также может непосредственно предоставлять матрицу F микширования в качестве информации 1574 в микшер 1598.
Кроме того, описано правило вычисления для матрицы F микширования, которое использует разложение по сингулярным значениям. Тем не менее, следует отметить, что имеются определенные степени свободы, поскольку могут быть выбраны записи
Figure 00000107
и
Figure 00000108
прототипной матрицы H. Предпочтительно, записи прототипной матрицы H выбираются как находящиеся в диапазоне между 0 и 1. Если значения
Figure 00000109
выбираются как более близкие к единице, то возникает значительное микширование представленных посредством рендеринга выходных аудиосигналов, в то время как влияние декоррелированных аудиосигналов является сравнительно небольшим, что может быть желательным в некоторых случаях. Тем не менее, в некоторых других ситуациях может быть более желательным иметь сравнительно большое влияние декоррелированных аудиосигналов, в то время как имеется только слабое микширование между представленными посредством рендеринга аудиосигналами. В этом случае, значения
Figure 00000110
типично выбираются таким образом, что они превышают
Figure 00000109
. Таким образом, декодер 1550 может быть адаптирован к требованиям посредством надлежащего выбора записей прототипной матрицы H.
14.4. Упрощенные способы для коррекции выходной ковариантности
В этом разделе, описываются две альтернативных структуры для упомянутой выше матрицы F микширования вместе с примерными алгоритмами для определения ее значений. Две альтернативы разработаны для различного входного контента (например, аудиоконтента):
Способ регулирования ковариантности для высококоррелированного контента (например, канального ввода с высокой корреляцией между различными канальными парами).
Способ энергетической компенсации для независимых входных сигналов (например, объектно-ориентированного ввода, обычно предполагаемого независимым).
14.4.1. Способ (A) регулирования ковариантности
С учетом того, что сигнал
Figure 00000111
(например, представленные посредством рендеринга аудиосигналы 1582a-1582n) уже является оптимальным в отношении MMSE, обычно нежелательно модифицировать параметрические восстановления
Figure 00000111
(например, выходные аудиосигналы 1552a-1552n), чтобы улучшать свойства ковариантности вывода
Figure 00000112
, поскольку это может влиять на качество разделения.
Если обрабатывается только смесь декоррелированных сигналов W, матрица P микширования может уменьшаться до единичной матрицы (или ее кратного). Таким образом, этот упрощенный способ может описываться посредством задания следующего:
Figure 00000113
Конечный вывод системы может представляться следующим образом:
Figure 00000114
Следовательно, конечная выходная ковариантность системы может представляться следующим образом:
Figure 00000115
Разность
Figure 00000116
между идеальной (или требуемой) выходной ковариационной матрицей C и ковариационной матрицей
Figure 00000117
представленного посредством рендеринга параметрического восстановления (например, представленных посредством рендеринга аудиосигналов) задается следующим образом:
Figure 00000118
Следовательно, матрица M микширования определяется таким образом, что:
Figure 00000119
Матрица M микширования вычисляется таким образом, что ковариационная матрица микшированных декоррелированных сигналов MW равна или аппроксимирует разность ковариантности между требуемой ковариантностью и ковариантностью сухих сигналов (например, представленных посредством рендеринга аудиосигналов). Следовательно, ковариантность конечного вывода аппроксимирует целевую ковариантность
Figure 00000120
:
Figure 00000121
где матрицы U, T и V, Q могут определяться, например, с использованием разложения по сингулярным значениям (SVD) ковариационных матриц
Figure 00000122
и
Figure 00000123
, что дает в результате:
Figure 00000124
Этот подход обеспечивает хорошее восстановление взаимной корреляции, максимизирующее использование сухого вывода (например, представленных посредством рендеринга аудиосигналов 1582a-1582n), и использует только свободу микширования декоррелированных сигналов. Другими словами, не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов (или их масштабированной версии) с одним или более декоррелированными аудиосигналами. Тем не менее, разрешается то, что данный декоррелированный сигнал комбинирован, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов. Комбинация задается, например, посредством матрицы M, как задано здесь.
Далее предоставляются некоторые математические извлечения для ограниченной структуры матрицы F.
Другими словами, поясняется извлечение матрицы M микширования для упрощенного способа A.
Ковариационные матрицы
Figure 00000125
и
Figure 00000126
могут выражаться с использованием, например, разложения по сингулярным значениям (SVD) следующим образом:
Figure 00000127
где T и Q являются диагональными матрицами с сингулярными значениями
Figure 00000125
и
Figure 00000126
, соответственно, и U и V являются унитарными матрицами, содержащими соответствующие сингулярные вектора.
Следует отметить, что применение триангуляции Шура или разложения по собственным значениям (вместо SVD) приводит к аналогичным результатам (или даже идентичным результатам, если диагональные матрицы Q и T ограничены положительными значениями).
При применении этого разложения к требованию
Figure 00000128
, в результате получается (по меньшей мере, приблизительно):
Figure 00000129
При этом отметим, что обе стороны уравнения представляют квадрат матрицы, отбрасывается возведение в квадрат и находится решение для полной матрицы M.
Из этого следует, что матрица M микширования может определяться следующим образом:
Figure 00000130
Этот способ может извлекаться из общего способа посредством задания прототипной матрицы H следующим образом:
Figure 00000131
В зависимости от состояния ковариационной матрицы
Figure 00000132
мокрых сигналов, последнее уравнение, возможно, должно включать в себя некоторую регуляризацию, но в иных отношениях оно должно быть численно стабильным.
14.4.2. Способ (B) энергетической компенсации
Иногда (в зависимости от сценария применения) нежелательно разрешать микширование параметрических восстановлений (например, представленных посредством рендеринга аудиосигналов) или декоррелированных сигналов, а по отдельности микшировать каждый параметрически восстановленный сигнал (например, представленный посредством рендеринга аудиосигнал) только с собственным декоррелированным сигналом.
Чтобы достигать этого требования, дополнительное ограничение должно вводиться в упрощенный способ A. Теперь, матрица M микширования мокрых сигналов (декоррелированных сигналов) должна иметь диагональную форму:
Figure 00000133
Основная цель этого подхода состоит в том, чтобы использовать декоррелированные сигналы для того, чтобы компенсировать потери энергии в параметрическом восстановлении (например, в представленном посредством рендеринга аудиосигнале), тогда как внедиагональная модификация ковариационной матрицы выходного сигнала игнорируется, т.е. отсутствует прямая обработка взаимных корреляций. Следовательно, взаимная утечка между выходными объектами/каналами (например, между представленными посредством рендеринга аудиосигналами) не вводится при применении декоррелированных сигналов.
Как результат, только главная диагональ целевой ковариационной матрицы (или требуемая ковариационная матрица) может быть достигнута, а не-диагонали полностью зависят от точности параметрического восстановления и суммированных декоррелированных сигналов. Этот способ является самым подходящим для только объектно-ориентированных вариантов применения, в которых сигналы могут считаться декоррелированными.
Конечный вывод способа (например, выходные аудиосигналы) задается посредством
Figure 00000134
с диагональной матрицей M, вычисленной таким образом, что записи ковариационной матрицы, соответствующие энергиям восстановленных сигналов
Figure 00000135
, равны с требуемыми энергиями:
Figure 00000136
C может определяться так, как пояснено выше для общего случая.
Например, матрица M микширования может непосредственно извлекаться посредством деления требуемых энергий сигналов компенсации (разностей между требуемыми энергиями (которые могут описываться посредством диагональных элементов взаимной ковариационной матрицы C) и энергий параметрических восстановлений (которые могут определяться посредством аудиодекодера)) на энергии декоррелированных сигналов (которые могут определяться посредством аудиодекодера):
Figure 00000137
где
Figure 00000138
является неотрицательным пороговым значением, используемым для того, чтобы ограничивать величину декоррелированного компонента, суммируемого с выходными сигналами (например,
Figure 00000139
).
Следует отметить, что энергии могут быть восстановлены параметрически (например, с использованием OLD, IOC и коэффициентов рендеринга) или могут быть фактически вычислены посредством декодера (что типично является более вычислительно затратным).
Этот способ может извлекаться из общего способа посредством задания прототипной матрицы H следующим образом:
Figure 00000140
Этот способ максимизирует использование сухих представленных посредством рендеринга выводов явно. Способ является эквивалентным упрощению A, когда ковариационные матрицы не имеют внедиагональных записей.
Этот способ имеет уменьшенную вычислительную сложность.
Тем не менее, следует отметить, что способ энергетической компенсации необязательно подразумевает то, что члены взаимной корреляции не модифицируются. Это справедливо только в том случае, если используются идеальные декорреляторы, и отсутствует уменьшение сложности для модуля декорреляции. Идея способа состоит в том, чтобы восстанавливать энергию и игнорировать модификации в перекрестных членах (изменения перекрестных членов не модифицируют существенно свойства корреляции и не влияют на полное пространственное впечатление).
14.5. Требования для матрицы F микширования
Далее, поясняется то, что матрица F микширования, извлечение которой описано в разделах 14.3 и 14.4, удовлетворяет требованиям, чтобы исключать ухудшения.
Во избежание ухудшений в выводе, любой способ для компенсации ошибок параметрического восстановления должен формировать результат со следующим свойством: если матрица рендеринга равна матрице понижающего микширования, то выходные каналы должны быть равными (или, по меньшей мере, аппроксимировать) каналы понижающего микширования. Предложенная модель удовлетворяет этому свойству. Если матрица рендеринга равна матрице понижающего микширования, R=D, параметрическое восстановление задается следующим образом:
Figure 00000141
и требуемая ковариационная матрица является следующей:
Figure 00000142
Следовательно, уравнение, которое должно быть решено для получения матрицы F микширования, следующее:
Figure 00000143
где
Figure 00000144
является квадратной матрицей размера в
Figure 00000145
нулей. При решении предыдущего уравнения для F, можно получать:
Figure 00000146
Это означает то, что декоррелированные сигналы имеют нулевой весовой коэффициент в суммировании, и конечный вывод задается посредством сухих сигналов, которые являются идентичными с сигналами понижающего микширования:
Figure 00000147
Как результат, в этом сценарии рендеринга удовлетворяется данное требование для равенства системного вывода сигналу понижающего микширования.
14.6. Оценка ковариационной матрицы Es сигналов
Для того, чтобы получать матрицу F микширования, знание ковариационной матрицы
Figure 00000148
комбинированных сигналов S является обязательным или, по меньшей мере, желательным.
В принципе, можно оценивать ковариационную матрицу
Figure 00000149
непосредственно из доступных сигналов (а именно, из параметрического восстановления
Figure 00000150
и вывода W декоррелятора).
Хотя этот подход может приводить к более точным результатам, он может не быть практичным вследствие ассоциированной вычислительной сложности. Предложенные способы используют параметрические аппроксимации ковариационной матрицы
Figure 00000149
.
Общая структура ковариационной матрицы
Figure 00000149
может представляться следующим образом:
Figure 00000151
где матрица
Figure 00000152
является взаимной ковариантностью между прямыми
Figure 00000153
и декоррелированными W сигналами.
При условии, что декорреляторы являются идеальными (т.е. сохраняющими энергию, причем выводы являются ортогональным к вводам, и все выводы являются взаимно ортогональными), ковариационная матрица Es может выражаться с использованием упрощенной формы следующим образом:
Figure 00000154
Ковариационная матрица
Figure 00000155
параметрически восстановленного сигнала
Figure 00000156
может определяться параметрически следующим образом:
Figure 00000157
Ковариационная матрица
Figure 00000158
декоррелированного сигнала W предположительно удовлетворяет свойству взаимной ортогональности и содержит только диагональные элементы
Figure 00000159
следующим образом:
Figure 00000160
Если допущение в отношении взаимной ортогональности и/или сохранении энергии нарушается (например, в случае, когда число доступных декорреляторов меньше числа сигналов, которые должны быть декоррелированы), то ковариационная матрица
Figure 00000158
может оцениваться следующим образом:
Figure 00000161
14.7. Необязательное улучшение: коррекция выходной ковариантности с использованием декоррелированных сигналов и модуля энергетического регулирования
Далее описывается сверхпреимущественный принцип, который может быть комбинирован с другими принципами, описанными в данном документе.
Предложенный способ для коррекции ошибок выходной ковариантности составляет выходной сигнал в качестве взвешенной суммы параметрически восстановленного сигнала
Figure 00000162
и его декоррелированной части
Figure 00000163
. Эта сумма может быть представлена следующим образом:
Figure 00000164
При применении обозначения для комбинированной матрицы:
Figure 00000165
и сигнала:
Figure 00000166
это дает в результате:
Figure 00000167
Тем не менее, следует отметить, что это уравнение может считаться самым общим формулированием. К вышеприведенной формуле необязательно может применяться изменение, которое является допустимым для всех "упрощенных способов", описанных в данном документе.
Далее описывается функциональность, которая может выполняться, например, посредством модуля энергетического регулирования.
Во избежание введения артефактов в конечном выводе, в крайних случаях, различные ограничения могут налагаться на матрицу F микширования (или матрицу микширования
Figure 00000168
). Указанные ограничения могут быть представлены посредством абсолютных пороговых значений или относительных пороговых значений относительно энергетических свойств и/или свойств корреляции целевых и/или параметрически восстановленных сигналов (например, представленных посредством рендеринга аудиосигналов).
Способ, описанный в этом разделе, предлагает достигать этого посредством добавления этапа энергетического регулирования в блоке конечного выходного микширования. Цель такого этапа обработки состоит в том, чтобы обеспечивать то, что после этапа микширования с матрицей F (или "модифицированной" матрицей
Figure 00000169
микширования, извлекаемой из нее), энергетические уровни декоррелированных (мокрых) сигналов (например,
Figure 00000170
) и/или энергетические уровни параметрически восстановленных (сухих) сигналов (например,
Figure 00000171
), и/или энергетические уровни конечных выходных сигналов (например,
Figure 00000172
) не превышают определенные пороговые значения.
Эта дополнительная функциональность может достигаться посредством модификации определения комбинированной матрицы F микширования таким образом, что она представляет собой следующее:
Figure 00000173
где две квадратных (или диагональных) матрицы
Figure 00000174
и
Figure 00000175
энергетического регулирования (которые также могут упоминаться в качестве "матриц энергетической коррекции") применяются к весовым коэффициентам микширования (например, P и WI) параметрически восстановленных (сухих) и декоррелированных (мокрых) сигналов, соответственно. Как результат, конечный вывод является следующим:
Figure 00000176
Сухие и мокрые матрицы
Figure 00000177
и
Figure 00000178
энергетической коррекции вычисляются таким образом, что вклад сухих и/или мокрых сигналов (например,
Figure 00000179
и W) в уровнях конечных выходных сигналах (например,
Figure 00000180
), вследствие этапа микширования с матрицей
Figure 00000181
, не превышает определенное относительное пороговое значение относительно параметрически восстановленных сигналов (например,
Figure 00000182
) и/или декоррелированных сигналов (например, W), и/или целевых сигналов. Другими словами, имеется, в общем, несколько возможностей вычислять матрицы коррекции.
Сухие и мокрые матрицы
Figure 00000177
и
Figure 00000178
энергетической коррекции могут вычисляться, например, в качестве функции энергических свойств и/или свойств корреляции, и/или свойств ковариантности сухих сигналов (например,
Figure 00000183
) и/или мокрых сигналов (например, W), и/или требуемых конечных выходных сигналов, и/или оценки ковариационной матрицы сухих и/или мокрых и/или конечных выходных сигналов после этапа микширования. Следует отметить, что вышеуказанные возможности описывают некоторые примеры того, как могут получаться матрицы коррекции.
Одно возможное решение задается посредством следующих выражений:
Figure 00000184
и:
Figure 00000185
где
Figure 00000186
и
Figure 00000187
являются двумя пороговыми значениями, которые могут быть постоянными или изменяющимися по частоте/во времени в качестве функции от свойств сигнала (например, энергии, корреляции и/или ковариантности),
Figure 00000188
является (необязательной) небольшой неотрицательной постоянной регуляризации, например,
Figure 00000189
представляет информацию ковариантности и/или энергии параметрически восстановленных (сухих) сигналов, и
Figure 00000190
представляет оценку ковариационной матрицы сухих или мокрых сигналов после этапа микширования с матрицей F или оценку ковариационной матрицы выходных сигналов после этапа микширования с матрицей F, которая должна получаться, если не применяется этап энергетического регулирования, предложенный посредством настоящего изобретения (или иными словами, которая должна получаться, если модуль энергетического регулирования не использован).
В вышеприведенных уравнениях, операция "max(.)" в знаменателе, которая предоставляет максимальное значение аргументов
Figure 00000191
и
Figure 00000192
, например, может быть заменена посредством добавления
Figure 00000193
или другого механизма, чтобы не допускать деления на нуль.
Например,
Figure 00000194
может задаваться следующим образом:
Figure 00000195
- оценка ковариационной матрицы мокрых сигналов после этапа микширования с матрицей M.
Figure 00000196
- оценка ковариационной матрицы сухих сигналов после этапа микширования с матрицей P.
Figure 00000197
- оценка ковариационной матрицы выходных сигналов после этапа микширования с матрицей F.
Далее описываются некоторые дополнительные упрощения. Другими словами, описываются упрощенные способы для коррекции выходной ковариантности.
С учетом того, что сигналы Z являются уже оптимальными в отношении MMSE, обычно нежелательно модифицировать параметрические восстановления
Figure 00000198
(сухие сигналы), чтобы улучшать свойства ковариантности вывода
Figure 00000199
, поскольку это может влиять на качество разделения.
Если обрабатывается только смесь декоррелированных (мокрых) сигналов W, матрица P микширования может уменьшаться до единичной матрицы. В этом случае, матрица энергетического регулирования, соответствующая параметрически восстановленным (сухим) сигналам, также может уменьшаться до единичной матрицы. Таким образом, этот упрощенный способ может описываться посредством задания следующего:
Figure 00000200
Конечный вывод системы может представляться следующим образом:
Figure 00000201
15. Уменьшение сложности для модуля декорреляции
Далее описывается то, как может уменьшаться сложность декорреляторов, используемых в вариантах осуществления согласно настоящему изобретению.
Следует отметить, что реализация функции декоррелятора зачастую является вычислительно сложной. В некоторых вариантах применения (например, в решениях для портативных декодеров), ограничения на число декорреляторов, возможно, должны вводиться вследствие ограниченных вычислительных ресурсов. Этот раздел предоставляет описание средств для уменьшения сложности модуля декорреляции посредством управления числом применяемых декорреляторов (или декорреляций). Интерфейс модуля декорреляции проиллюстрирован на фиг. 16 и 17.
Фиг. 16 показывает принципиальную блок-схему простого (традиционного) модуля декорреляции. Модуль 1600 декорреляции согласно фиг. 6 выполнен с возможностью принимать N входных сигналов 1610a-1610n декоррелятора, таких как, например, представленные посредством рендеринга аудиосигналы
Figure 00000202
. Кроме того, модуль 1600 декорреляции предоставляет N выходных сигналов 1612a-1612n декоррелятора. Модуль 1600 декорреляции, например, может содержать N отдельных декорреляторов 1620a-1620n (или функций декорреляции). Например, каждый из отдельных декорреляторов 1620a-1620n может предоставлять один из выходных сигналов 1612a-1612n декоррелятора на основе ассоциированного одного из входных сигналов 1610a-1610n декоррелятора. Соответственно, может требоваться N отдельных декорреляторов 1620a-1620n или функций декорреляции, чтобы предоставлять N декоррелированных сигналов 1612a-1612n на основе N входных сигналов 1610a-1610n декоррелятора.
Тем не менее, фиг. 17 показывает принципиальную блок-схему модуля 1700 декорреляции с меньшей сложностью. Модуль 1700 декорреляции с меньшей сложностью выполнен с возможностью принимать N входных сигналов 1710a-1710n декоррелятора и предоставлять, на их основе, N выходных сигналов 1712a-1712n декоррелятора. Например, входные сигналы 1710a-1710n декоррелятора могут представлять собой представленные посредством рендеринга аудиосигналы
Figure 00000202
, а выходные сигналы 1712a-1712n декоррелятора могут представлять собой декоррелированные аудиосигналы W.
Декоррелятор 1700 содержит предварительный микшер 1720 (или эквивалентно, функциональность предварительного микширования), который выполнен с возможностью принимать первый набор из N входных сигналов 1710a-1710n декоррелятора и предоставлять, на их основе, второй набор из K входных сигналов 1722a-1722k декоррелятора. Например, предварительный микшер 1720 может выполнять так называемое "предварительное микширование" или "понижающее микширование", чтобы извлекать второй набор из K входных сигналов 1722a-1722k декоррелятора на основе первого набора N входных сигналов 1710a-1710n декоррелятора. Например, K сигналов второго набора из K входных сигналов 1722a-1722k декоррелятора могут быть представлены с использованием матрицы
Figure 00000203
. Модуль 1700 декорреляции (или, эквивалентно, многоканальный декоррелятор) также содержит ядро 1730 декоррелятора, которое выполнено с возможностью принимать K сигналов из второго набора входных сигналов 1722a-1722k декоррелятора и предоставлять, на их основе, K выходных сигналов декоррелятора, которые составляют первый набор выходных сигналов 1732a-1732k декоррелятора. Например, ядро 1730 декоррелятора может содержать K отдельных декорреляторов (или функций декорреляции), при этом каждый из отдельных декорреляторов (или функций декорреляции) предоставляет один из выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора на основе соответствующего входного сигнала декоррелятора из второго набора из K входных сигналов 1722a-1722k декоррелятора. Альтернативно, данный декоррелятор или функция декорреляции может применяться K раз, так что каждый из выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора основан на одном из входных сигналов декоррелятора из второго набора из K входных сигналов 1722a-1722k декоррелятора.
Модуль 1700 декорреляции также содержит постмикшер 1740, который выполнен с возможностью принимать K выходных сигналов 1732a-1732k декоррелятора из первого набора выходных сигналов декоррелятора и предоставлять, на их основе, N сигналов 1712a-1712n из второго набора выходных сигналов декоррелятора (которые составляют "внешние" выходные сигналы декоррелятора).
Следует отметить, что предварительный микшер 1720 предпочтительно может выполнять операцию линейного микширования, которая может описываться посредством матрицы Mpre предварительного микширования. Кроме того, постмикшер 1740 предпочтительно выполняет операцию линейного микширования (или повышающего микширования), которая может быть представлена посредством матрицы Mpost постмикширования, чтобы извлекать N выходных сигналов 1712a-1712n декоррелятора из второго набора выходных сигналов декоррелятора из первого набора из K выходных сигналов 1732a-1732k декоррелятора (т.е. из выходных сигналов ядра 1730 декоррелятора).
Основная идея предложенного способа и устройства состоит в том, чтобы сокращать число входных сигналов в декорреляторы (или в ядро декоррелятора) с N до k посредством следующего:
- Предварительное микширование сигналов (например, представленных посредством рендеринга аудиосигналов) в меньшее число каналов с помощью:
Figure 00000204
- Применение декорреляции с использованием доступных K декорреляторов (например, ядра декоррелятора) с помощью:
Figure 00000205
- Повышающее микширование декоррелированных сигналов обратно в N каналов с помощью:
Figure 00000206
Матрица Mpre предварительного микширования может составляться на основе информации понижающего микширования/рендеринга/корреляции/и т.д. таким образом, что матричное произведение (
Figure 00000207
) становится хорошо обусловленным (относительно операции инверсии). Матрица постмикширования может вычисляться следующим образом:
Figure 00000208
Даже если ковариационная матрица промежуточных декоррелированных сигналов
Figure 00000209
(или
Figure 00000210
) является диагональной (при допущении идеальных декорреляторов), ковариационная матрица конечных декоррелированных сигналов W с достаточной большой вероятностью больше не является диагональной при использовании этого вида обработки. Следовательно, ковариационная матрица, возможно, должна оцениваться с использованием матриц микширования следующим образом:
Figure 00000211
Число используемых декорреляторов (или отдельных декорреляций), k, не указывается и зависит от требуемой вычислительной сложности и доступных декорреляторов. Его значение может варьироваться от N (наибольшая вычислительная сложность) до 1 (наименьшая вычислительная сложность).
Число входных сигналов в модуль декорреляции, N, является произвольным, и предложенный способ поддерживает любое число входных сигналов, независимо от конфигурации рендеринга системы.
Например, в вариантах применения с использованием трехмерного аудиоконтента, с высоким числом выходных каналов, в зависимости от выходной конфигурации одно возможное выражение для матрицы предварительного микширования Mpre описывается ниже.
Далее описывается то, как предварительное микширование, которое выполняется посредством предварительного микшера 1720 (и следовательно, постмикширование, которое выполняется посредством постмикшера 1740), регулируется, если модуль 1700 декорреляции используется в многоканальном аудиодекодере, при этом входные сигналы 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора ассоциированы с различными пространственными позициями аудиосцены.
С этой целью, фиг. 18 показывает табличное представление позиций громкоговорителей, которые используются для различных выходных форматов.
В таблице 1800 по фиг. 18, первый столбец 1810 описывает числовой индекс громкоговорителя. Второй столбец 1820 описывает метку громкоговорителя. Третий столбец 1830 описывает азимутальную позицию соответствующего громкоговорителя, и четвертый столбец 1832 описывает азимутальный допуск позиции громкоговорителя. Пятый столбец 1840 описывает подъем позиции соответствующего громкоговорителя, и шестой столбец 1842 описывает соответствующий допуск по подъему. Седьмой столбец 1850 указывает, какие громкоговорители используются для выходного формата 0-2.0. Восьмой столбец 1860 показывает то, какие громкоговорители используются для выходного формата 0-5.1. Девятый столбец 1864 показывает то, какие громкоговорители используются для выходного формата 0-7.1. Десятый столбец 1870 показывает то, какие громкоговорители используются для выходного формата 0-8.1, одиннадцатый столбец 1880 показывает то, какие громкоговорители используются для выходного формата 0-10.1, и двенадцатый столбец 1890 показывает то, какие громкоговорители используются для выходного формата 0-22.2. Как можно видеть, два громкоговорителя используются для выходного формата 0-2.0, шесть громкоговорителей используются для выходного формата 0-5.1, восемь громкоговорителей используются для выходного формата 0-7.1, девять громкоговорителей используются для выходного формата 0-8.1, 11 громкоговорителей используются для выходного формата 0-10.1, и 24 громкоговорителя используются для выходного формата 0-22.2.
Тем не менее, следует отметить, что один громкоговоритель с низкочастотным эффектом используется для выходных форматов 0-5.1, 0-7.1, 0-8.1 и 0-10.1, и что два громкоговорителя (LFE1, LFE2) с низкочастотным эффектом используются для выходного формата 0-22.2. Кроме того, следует отметить, что в предпочтительном варианте осуществления, один представленный посредством рендеринга аудиосигнал (например, один из представленных посредством рендеринга аудиосигналов 1582a-1582n) ассоциирован с каждым из громкоговорителей, за исключением одного или более громкоговорителей с низкочастотным эффектом. Соответственно, два представленных посредством рендеринга аудиосигнала ассоциированы с двумя громкоговорителями, используемыми согласно формату 0-2.0, пять представленных посредством рендеринга аудиосигналов ассоциированы с пятью громкоговорителями без низкочастотного эффекта, если используется формат 0-5.1, семь представленных посредством рендеринга аудиосигналов ассоциированы с семью громкоговорителями без низкочастотного эффекта, если используется формат 0-7.1, восемь представленных посредством рендеринга аудиосигналов ассоциированы с восемью громкоговорителями без низкочастотного эффекта, если используется формат 0-8.1, десять представленных посредством рендеринга аудиосигналов ассоциированы с десятью громкоговорителями без низкочастотного эффекта, если используется формат 0-10.1, и 22 представленных посредством рендеринга аудиосигнала ассоциированы с 22 громкоговорителями без низкочастотного эффекта, если используется формат 0-22.2.
Тем не менее, часто желательно использовать меньшее число (отдельных) декорреляторов (ядра декоррелятора), как упомянуто выше. Далее описывается то, как число декорреляторов может гибко уменьшаться, когда выходной формат 0-22.2 используется посредством многоканального аудиодекодера, так что предусмотрено 22 представленных посредством рендеринга аудиосигнала 1582a-1582n (которые могут быть представлены посредством матрицы
Figure 00000212
или посредством вектора
Figure 00000213
).
Фиг. 19a-19g представляют различные варианты для предварительного микширования представленных посредством рендеринга аудиосигналов 1582a-1582n при допущении, что имеется N=22 представленных посредством рендеринга аудиосигнала. Например, фиг. 19a показывает табличное представление записей матрицы Mpre предварительного микширования. Строки, помеченные 1-11 на фиг. 19a, представляют строки матрицы Mpre предварительного микширования, и столбцы, помеченные 1-22, ассоциированы со столбцами матрицы Mpre предварительного микширования. Кроме того, следует отметить, что каждая строка матрицы Mpre предварительного микширования ассоциирована с одним из K входных сигналов 1722a-1722k декоррелятора из второго набора входных сигналов декоррелятора (т.е. с входными сигналами ядра декоррелятора). Кроме того, каждый столбец матрицы Mpre предварительного микширования ассоциирован с одним из N входных сигналов 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора, и, следовательно, с одним из представленных посредством рендеринга аудиосигналов 1582a-1582n (поскольку входные сигналы 1710a-1710n декоррелятора из первого набора входных сигналов декоррелятора типично являются идентичными представленным посредством рендеринга аудиосигналам 1582-1582n в варианте осуществления). Соответственно, каждый столбец матрицы Mpre предварительного микширования ассоциирован с конкретным громкоговорителем, и, следовательно, поскольку громкоговорители ассоциированы с пространственными позициями, с конкретной пространственной позицией. Строка 1910 указывает то, с каким громкоговорителем (и следовательно, с какой пространственной позицией) ассоциированы столбцы матрицы Mpre предварительного микширования (при этом метки громкоговорителей задаются в столбце 1820 таблицы 1800).
Далее подробнее описывается функциональность, заданная посредством предварительного микширования Mpre по фиг. 19a. Как можно видеть, представленные посредством рендеринга аудиосигналы, ассоциированные с динамиками (или, эквивалентно, позициями динамиков) "CH_M_000" и "CH_L_000", комбинированы с возможностью получать первый входной сигнал декоррелятора из второго набора входных сигналов декоррелятора (т.е. первый микшированный с понижением входной сигнал декоррелятора), который указывается посредством значений в "1" в первом и втором столбце первой строки матрицы предварительного микширования Mpre Аналогично, представленные посредством рендеринга аудиосигналы, ассоциированные с динамиками (или, эквивалентно, позициями динамиков) "CH_U_000" и "CH_T_000" комбинированы с возможностью получать второй микшированный с понижением входной сигнал декоррелятора (т.е. второй входной сигнал декоррелятора из второго набора входных сигналов декоррелятора). Кроме того, можно видеть, что матрица Mpre предварительного микширования по фиг. 19a задает одиннадцать комбинаций из двух представленных посредством рендеринга аудиосигналов, так что одиннадцать микшированных с понижением входных сигналов декоррелятора извлекаются из 22 представленных посредством рендеринга аудиосигналов. Также можно видеть, что четыре центральных сигнала комбинированы с возможностью получать два микшированных с понижением входных сигнала декоррелятора (см. столбцы 1-4 и строки 1 и 2 матрицы предварительного микширования). Кроме того, можно видеть, что другие микшированные с понижением входные сигналы декоррелятора получены посредством комбинирования двух аудиосигналов, ассоциированных с идентичной стороной аудиосцены. Например, третий микшированный с понижением входной сигнал декоррелятора, представленный посредством третьей строки матрицы предварительного микширования, получается посредством комбинирования представленных посредством рендеринга аудиосигналов, ассоциированных с азимутальной позицией +135° ("CH_M_L135"; "CH_U_L135"). Кроме того, можно видеть, что четвертый входной сигнал декоррелятора (представленный посредством четвертой строки матрицы предварительного микширования) получается посредством комбинирования представленных посредством рендеринга аудиосигналов, ассоциированных с азимутальной позицией -135° ("CH_M_R135"; "CH_U_R135"). Соответственно, каждый из микшированных с понижением входных сигналов декоррелятора получается посредством комбинирования двух представленных посредством рендеринга аудиосигналов, ассоциированных с идентичной (или аналогичной) азимутальной позицией (или, эквивалентно, горизонтальной позицией), при этом типично предусмотрена комбинация сигналов, ассоциированных с различным подъемом (или, эквивалентно, вертикальной позицией).
Обратимся теперь к фиг. 19b, который показывает коэффициенты предварительного микширования (записи матрицы Mpre предварительного микширования) для N=22 и K=10. Структура таблицы по фиг. 19b является идентичной структуре таблицы по фиг. 19a. Тем не менее, как можно видеть, матрица Mpre предварительного микширования согласно фиг. 19b отличается от матрицы Mpre предварительного микширования по фиг. 19a тем, что первая строка описывает комбинацию четырех представленных посредством рендеринга аудиосигналов, имеющих идентификаторы каналов (или позиции) "CH_M_000", "CH_L_000", "CH_U_000" и "CH_T_000". Другими словами, четыре представленных посредством рендеринга аудиосигнала, ассоциированные с вертикально смежными позициями, комбинированы в предварительное микширование, чтобы сокращать число требуемых декорреляторов (десять декорреляторов вместо одиннадцати декорреляторов для матрицы согласно фиг. 19a).
Если обратиться теперь к фиг. 19c, который показывает коэффициенты предварительного микширования (записи матрицы Mpre предварительного микширования) для N=22 и K=9, можно видеть, что матрица Mpre предварительного микширования согласно фиг. 19c содержит только девять строк. Кроме того, из второй строки матрицы Mpre предварительного микширования по фиг. 19c можно видеть, что представленные посредством рендеринга аудиосигналы, ассоциированные с идентификаторами каналов (или позициями) "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135", комбинированы (в предварительном микшере, сконфигурированном согласно матрице предварительного микширования по фиг. 19c) с возможностью получать второй микшированный с понижением входной сигнал декоррелятора (входной сигнал декоррелятора из второго набора входных сигналов декоррелятора). Как можно видеть, представленные посредством рендеринга аудиосигналы, которые комбинированы в отдельные микшированные с понижением входные сигналы декоррелятора посредством матриц предварительного микширования согласно фиг. 19a и 19b, микшированы с понижением в общий микшированный с понижением входной сигнал декоррелятора согласно фиг. 19c. Кроме того, следует отметить, что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_L135" и "CH_U_L135", ассоциированы с идентичными горизонтальными позициями (или азимутальными позициями) на идентичной стороне аудиосцены и пространственно смежными вертикальными позициями (или подъемами), и что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_R135" и "CH_U_R135", ассоциированы с идентичными горизонтальными позициями (или азимутальными позициями) на второй стороне аудиосцены и пространственно смежными вертикальными позициями (или подъемами). Кроме того, можно сказать, что представленные посредством рендеринга аудиосигналы, имеющие идентификаторы каналов "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135", ассоциированы с горизонтальной парой (или даже горизонтальной четверкой) пространственных позиций, содержащих левостороннюю позицию и правостороннюю позицию. Другими словами, во второй строке матрицы Mpre предварительного микширования по фиг. 19c можно видеть, что два из четырех представленных посредством рендеринга аудиосигналов, которые комбинированы для декорреляции с использованием одного данного декоррелятора, ассоциированы с пространственными позициями в левой стороне аудиосцены, и что два из четырех представленных посредством рендеринга аудиосигналов, которые комбинированы для декорреляции с использованием идентичного данного декоррелятора, ассоциированы с пространственными позициями в правой стороне аудиосцены. Кроме того, можно видеть, что левосторонние представленные посредством рендеринга аудиосигналы (из упомянутых четырех представленных посредством рендеринга аудиосигналов) ассоциированы с пространственными позициями, которые являются симметричными, относительно центральной плоскости аудиосцены, с пространственными позициями, ассоциированными с правосторонними представленными посредством рендеринга аудиосигналами (из упомянутых четырех представленных посредством рендеринга аудиосигналов), так что "симметричная" четверка представленных посредством рендеринга аудиосигналов комбинирована посредством предварительного микширования для декорреляции с использованием одного (отдельного) декоррелятора.
Если обратиться к фиг. 19d, 19e, 19f и 19g, можно видеть, что все большее число представленных посредством рендеринга аудиосигналов комбинированы с сокращением числа (отдельных) декорреляторов (т.е. со снижением K). Как можно видеть на фиг. 19a-19g, типично представленные посредством рендеринга аудиосигналы, которые микшированы с понижением в два отдельных микшированных с понижением входных сигнала декоррелятора, комбинированы при сокращении числа декорреляторов посредством 1. Кроме того, можно видеть, что типично комбинируются такие представленные посредством рендеринга аудиосигналы, которые ассоциированы с "симметричной четверкой" пространственных позиций, при этом, для сравнительно высокого числа декорреляторов, комбинируются только представленные посредством рендеринга аудиосигналы, ассоциированные с равными или, по меньшей мере, аналогичными горизонтальными позициями (или азимутальными позициями), тогда как для сравнительно меньшего числа декорреляторов, также комбинируются представленные посредством рендеринга аудиосигналы, ассоциированные с пространственными позициями на противоположных сторонах аудиосцены.
Если обратиться теперь к фиг. 20a-20d, 21a-21c, 22a-22b и 23, следует отметить, что аналогичные принципы также могут применяться для различного числа представленных посредством рендеринга аудиосигналов.
Например, фиг. 20a-20d описывают записи матрицы Mpre предварительного микширования для N=10 и для K между 2 и 5.
Аналогично, фиг. 21a-21c описывают записи матрицы Mpre предварительного микширования для N=8 и K между 2 и 4.
Аналогично, фиг. 21d-21f описывают записи матрицы Mpre предварительного микширования для N=7 и K между 2 и 4.
Фиг. 22a и 22b показывают записи матрицы предварительного микширования для N=5 и K=2 и K=3.
В завершение, фиг. 23 показывает записи матрицы предварительного микширования для N=2 и K=1.
Если обобщать, матрицы предварительного микширования согласно фиг. 19-23 могут использоваться, например, переключаемым способом, в многоканальном декорреляторе, который является частью многоканального аудиодекодера. Переключение между матрицами предварительного микширования может выполняться, например, в зависимости от требуемой выходной конфигурации (которая типично определяет число N представленных посредством рендеринга аудиосигналов), а также в зависимости от требуемой сложности декорреляции (которая определяет параметр K и которая может регулироваться, например, в зависимости от информации сложности, включенной в кодированное представление аудиоконтента).
Если обратиться теперь к фиг. 24, подробнее описывается уменьшение сложности для выходного 22.2-формата. Как уже указано выше, одно возможное решение для составления матрицы предварительного микширования и матрицы постмикширования состоит в том, чтобы использовать пространственную информацию схемы размещения для воспроизведения, чтобы выбирать каналы, которые должны микшироваться, и вычислять коэффициенты микширования. На основе их позиции, геометрически связанные громкоговорители (и, например, представленные посредством рендеринга аудиосигналы, ассоциированные кроме того) группируются между собой, с рассмотрением вертикальных и горизонтальных пар, как описано в таблице по фиг. 24. Другими словами, фиг. 24 показывает, в форме таблицы, группировку позиций громкоговорителей, которые могут быть ассоциированы с представленными посредством рендеринга аудиосигналами. Например, первая строка 2410 описывает первую группу позиций громкоговорителей, которые находятся в центре аудиосцены. Вторая строка 2412 представляет вторую группу позиций громкоговорителей, которые пространственно связаны. Позиции громкоговорителей "CH_M_L135" и "CH_U_L135" ассоциированы с идентичными азимутальными позициями (или эквивалентно горизонтальными позициями) и смежными позициями подъема (или эквивалентно, вертикально смежными позициями). Аналогично, позиции "CH_M_R135" и "CH_U_R135" содержат идентичный азимут (или, эквивалентно, идентичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, вертикально смежную позицию). Кроме того, позиции "CH_M_L135", "CH_U_L135", "CH_M_R135" и "CH_U_R135" формируют четверку позиций, в которой позиции "CH_M_L135" и "CH_U_L135" являются симметричными позициям "CH_M_R135" и "CH_U_R135" относительно осевой плоскости аудиосцены. Кроме того, позиции "CH_M_180" и "CH_U_180" также содержат идентичную азимутальную позицию (или, эквивалентно, идентичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, смежную вертикальную позицию).
Третья строка 2414 представляет третью группу позиций. Следует отметить, что позиции "CH_M_L030" и "CH_L_L045" являются пространственно смежными позициями и содержат аналогичный азимут (или, эквивалентно, аналогичную горизонтальную позицию) и аналогичный подъем (или, эквивалентно, аналогичную вертикальную позицию). То же справедливо для позиций "CH_M_R030" и "CH_L_R045". Кроме того, позиции третьей группы позиций формируют четверку позиций, в которой позиции "CH_M_L030" и "CH_L_L045" являются пространственно смежными и симметричными относительно осевой плоскости аудиосцены позициям "CH_M_R030" и "CH_L_R045".
Четвертая строка 2416 представляет четыре дополнительных позиции, которые имеют аналогичные характеристики, по сравнению с первыми четырьмя позициями второй строки, и которые формируют симметричную четверку позиций.
Пятая строка 2418 представляет другую четверку симметричных позиций "CH_M_L060", "CH_U_L045", "CH_M_R060" и "CH_U_R045".
Кроме того, следует отметить, что представленные посредством рендеринга аудиосигналы, ассоциированные с позициями различных групп позиций, могут быть комбинированы все в большем числе с сокращением числа декорреляторов. Например, при наличии одиннадцати отдельных декорреляторов в многоканальном декорреляторе, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями в первом и втором столбце, могут быть комбинированы для каждой группы. Помимо этого, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, представленными в третьем и четвертом столбце, могут быть комбинированы для каждой группы. Кроме того, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, показанными в пятом и шестом столбце, могут быть комбинированы для второй группы. Соответственно, могут получаться одиннадцать входных сигналов декоррелятора понижающего микширования (которые вводятся в отдельные декорреляторы). Тем не менее, если требуется иметь меньше отдельных декорреляторов, представленные посредством рендеринга аудиосигналы, ассоциированные с позициями, показанными в столбцах 1-4, могут быть комбинированы для одной или более групп. Кроме того, представленные посредством рендеринга аудиосигналы, ассоциированные со всеми позициями второй группы, могут быть комбинированы, если требуется дополнительно сокращать число отдельных декорреляторов.
Если обобщать, сигналы, подаваемые в выходную схему размещения (например, в динамики), имеют горизонтальные и вертикальные зависимости, которые должны сохраняться во время процесса декорреляции. Следовательно, коэффициенты микширования вычисляются таким образом, что каналы, соответствующие различным группам громкоговорителя, не микшируются.
В зависимости от числа доступных декорреляторов или требуемого уровня декорреляции, в каждой группе сначала микшируются вертикальные пары (между средним уровнем и верхним уровнем или между средним уровнем и нижним уровнем). Во-вторых, микшируются горизонтальные пары (между левым и правым) или оставшиеся вертикальные пары. Например, в группе три, сначала микшируются каналы в левой вертикальной паре ("CH_M_L030" и "CH_L_L045") и в правой вертикальной паре ("CH_M_R030" и "CH_L_R045"), за счет этого сокращая число требуемых декорреляторов для этой группы с четырех до двух. Если требуется сокращать еще больше число декорреляторов, полученная горизонтальная пара микширована с понижением только в один канал, и число требуемых декорреляторов для этой группы уменьшается с четырех до одного.
На основе представленных правил микширования, вышеупомянутые таблицы (например, показанные на фиг. 19-23) извлекаются для разных уровней требуемой декорреляции (или для разных уровней требуемой сложности декорреляции).
16. Совместимость со вторичным внешним модулем рендеринга/преобразователем форматов
В случае, когда SAOC-декодер (или, если обобщать, многоканальный аудиодекодер) используется вместе с внешним вторичным модулем рендеринга/преобразователем форматов, могут использоваться следующие изменения предложенного принципа (способа или устройства):
- внутренняя матрица R рендеринга (например, модуля рендеринга) задается равной идентификатору
Figure 00000214
(когда используется внешний модуль рендеринга) или инициализируется с коэффициентами микширования, извлекаемыми из промежуточной конфигурации рендеринга (когда используется внешний преобразователь форматов).
- число декорреляторов уменьшается с использованием способа, описанного в разделе 15, с матрицей Mpre предварительного микширования, вычисленной на основе информации обратной связи, принимаемой из модуля рендеринга/преобразователя форматов (например,
Figure 00000215
, где
Figure 00000216
является матрицей понижающего микширования, используемой в преобразователе форматов). Каналы, которые должны микшироваться за пределами SAOC-декодера, предварительно микшируются и подаются в идентичный декоррелятор в SAOC-декодере.
С использованием внешнего преобразователя форматов, внутренний модуль SAOC-рендеринга должен предварительно осуществлять рендеринг в промежуточную конфигурацию (например, конфигурацию с наибольшим числом громкоговорителей).
В качестве вывода, в некоторых вариантах осуществления информация относительно того, какие из выходных аудиосигналов микшируются во внешнем модуле рендеринга или преобразователе форматов, используется для того, чтобы определять матрицу Mpre предварительного микширования, так что матрица предварительного микширования задает комбинацию таких входных сигналов декоррелятора (первого набора входных сигналов декоррелятора), которые фактически комбинированы во внешнем модуле рендеринга. Таким образом, информация, принимаемая из внешнего модуля рендеринга/преобразователя форматов (который принимает выходные аудиосигналы многоканального декодера), используется для того, чтобы выбирать или регулировать матрицу предварительного микширования (например, когда внутренняя матрица рендеринга многоканального аудиодекодера задается равной идентификатору или инициализируется с коэффициентами микширования, извлекаемыми из промежуточной конфигурации рендеринга), и внешний модуль рендеринга/преобразователь форматов соединен, чтобы принимать выходные аудиосигналы, как упомянуто выше относительно многоканального аудиодекодера.
17. Поток битов
Далее описывается то, какая дополнительная служебная информация может использоваться в потоке битов (или эквивалентно, в кодированном представлении аудиоконтента). В вариантах осуществления согласно изобретению, способ декорреляции может сигнализироваться в потоке битов для обеспечения требуемого уровня качества. Таким образом, пользователь (или аудиокодер) имеет большую гибкость в том, чтобы выбирать способ на основе контента. С этой целью, синтаксис MPEG SAOC-потока битов, например, может быть расширен на два бита для указания используемого способа декорреляции и/или два бита для указания конфигурации (или сложности).
Фиг. 25 показывает синтаксическое представление элементов bsDecorrelationMethod и bsDecorrelationLevel потока битов, которые могут добавляться, например, в часть SAOCSpecifigConfig() или SAOC3DSpecificConfig() потока битов. Как можно видеть на фиг. 25, два бита могут использоваться для элемента bsDecorrelationMethod потока битов, и два бита могут использоваться для элемента bsDecorrelationLevel потока битов.
Фиг. 26 показывает, в форме таблицы, ассоциирование между значениями переменной bsDecorrelationMethod потока битов и различными способами декорреляции. Например, три различных способа декорреляции могут сигнализироваться посредством различных значений упомянутой переменной потока битов. Например, коррекция выходной ковариантности с использованием декоррелированных сигналов, как описано, например, в разделе 14.3, может сигнализироваться в качестве одного из вариантов. В качестве другого варианта, может сигнализироваться способ регулирования ковариантности, например, как описано в разделе 14.4.1. В качестве еще одного другого варианта, может сигнализироваться способ энергетической компенсации, например, как описано в разделе 14.4.2. Соответственно, три различных способа для восстановления характеристик сигналов выходных аудиосигналов на основе представленных посредством рендеринга аудиосигналов и декоррелированных аудиосигналов могут выбираться в зависимости от переменной потока битов.
Режим энергетической компенсации использует способ, описанный в разделе 14.4.2, режим ограниченного регулирования ковариантности использует способ, описанный в разделе 14.4.1, а режим общего регулирования ковариантности использует способ, описанный в разделе 14.3.
Если обратиться теперь к фиг. 27, который показывает, в форме табличного представления, как различные уровни декорреляции могут сигнализироваться посредством переменной bsDecorrelationLevel потока битов, описывается способ для выбора сложности декорреляции. Другими словами, упомянутая переменная может оцениваться посредством многоканального аудиодекодера, содержащего многоканальный декоррелятор, описанный выше, чтобы определять то, какая сложность декорреляции используется. Например, упомянутый параметр потока битов может сигнализировать различные "уровни" декорреляции, которые могут быть обозначены с помощью значений: 0, 1, 2 и 3.
Пример конфигураций декорреляции (которые, например, могут обозначаться как "уровни декорреляции") приведен в таблице по фиг. 27. Фиг. 27 показывает табличное представление числа декорреляторов для различных "уровней" (например, уровней декорреляции) и выходных конфигураций. Другими словами, фиг. 27 показывает число K входных сигналов декоррелятора (второго набора входных сигналов декоррелятора), которые используются посредством многоканального декоррелятора. Как можно видеть в таблице по фиг. 27, число (отдельных) декорреляторов, используемых в многоканальном декорреляторе, переключается между 11, 9,7 и 5 для выходной 22.2-конфигурации в зависимости от того, какой "уровень декорреляции" сигнализируется посредством параметра bsDecorrelationLevel потока битов. Для выходной 10.1-конфигурации, выбор осуществляется между 10, 5, 3 и 2 отдельными декорреляторами, для 8.1-конфигурации, выбор осуществляется между 8, 4, 3 или 2 отдельными декорреляторами, и для выходной 7.1-конфигурации, выбор осуществляется между 7, 4, 3 и 2 декорреляторами в зависимости от "уровня декорреляции", сигнализируемого посредством упомянутого параметра потока битов. В выходной 5.1-конфигурации, предусмотрено только три допустимых варианта для чисел отдельных декорреляторов, а именно, 5, 3 или 2. Для выходной 2.1-конфигурации, предусмотрен только выбор между двумя отдельными декорреляторами (уровень 0 декорреляции) и одним отдельным декоррелятором (уровень 1 декорреляции).
Если обобщать, способ декорреляции может определяться на стороне декодера на основе вычислительной мощности и доступного числа декорреляторов. Помимо этого, выбор числа декорреляторов может осуществляться на стороне кодера и сигнализироваться с использованием параметра потока битов.
Соответственно, как способ того, как применяются декоррелированные аудиосигналы, чтобы получать выходные аудиосигналы, так и сложность для инициализации декоррелированных сигналов может управляться со стороны аудиокодера с использованием параметров потока битов, показанных на фиг. 25 и подробнее заданных на фиг. 26 и 27.
18. Области применения для изобретаемой обработки
Следует отметить, что одна из целей введенных способов заключается в том, чтобы восстанавливать сигнальные аудиометки, которые имеют большую важность для человеческого восприятия аудиосцены. Варианты осуществления согласно изобретению повышают точность восстановления свойств энергетического уровня и корреляции и, следовательно, увеличивают перцепционное качество звучания конечного выходного сигнала. Варианты осуществления согласно изобретению могут применяться для произвольного числа каналов понижающего микширования/повышающего микширования. Кроме того, способы и устройства, описанные в данном документе, могут быть комбинированы с существующими алгоритмами разделения параметрических источников. Варианты осуществления согласно изобретению дают возможность управлять вычислительной сложностью системы посредством задания ограничений на число применяемых функций декоррелятора. Варианты осуществления согласно изобретению могут приводить к упрощению алгоритмов объектно-ориентированного параметрического составления, таких как SAOC, посредством удаления этапа MPS-транскодирования.
19. Окружение кодирования/декодирования
Далее описывается окружение кодирования/декодирования аудио, в котором могут применяться принципы согласно настоящему изобретению.
Система трехмерных аудиокодеков, в которой могут использоваться принципы согласно настоящему изобретению, основана на MPEG-D USAC-кодеке для кодирования сигналов каналов и объектов, чтобы повышать эффективность для кодирования большого количества объектов. Адаптирована MPEG SAOC-технология. Три типа модулей рендеринга выполняют задачи рендеринга объектов в каналы, рендеринга каналов в наушники или рендеринга каналов в различные компоновки громкоговорителей. Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных объектов сжимается и мультиплексируется в трехмерный аудиопоток.
Фиг. 28, 29 и 30 показывают различные алгоритмические блоки трехмерной аудиосистемы.
Фиг. 28 показывает принципиальную блок-схему такого аудиокодера, а фиг. 29 показывает принципиальную блок-схему такого аудиодекодера. Другими словами, фиг. 28 и 29 показывают различные алгоритмические блоки трехмерной аудиосистемы.
Если обратиться теперь к фиг. 28, который показывает принципиальную блок-схему трехмерного аудиокодера 2900, поясняются некоторые подробности. Кодер 2900 содержит необязательный модуль 2910 предварительного рендеринга/микшер, который принимает один или более сигналов 2912 каналов и один или более сигналов 2914 объектов и предоставляет, на их основе, один или более сигналов 2916 каналов, а также один или более сигналов 2918, 2920 объектов. Аудиокодер также содержит USAC-кодер 2930 и необязательно SAOC-кодер 2940. SAOC-кодер 2940 выполнен с возможностью предоставлять один или более транспортных SAOC-каналов 2942 и вспомогательную SAOC-информацию 2944 на основе одного или более объектов 2920, предоставленных для SAOC-кодера. Кроме того, USAC-кодер 2930 выполнен с возможностью принимать сигналы 2916 каналов, содержащие каналы и предварительно представленные посредством рендеринга объекты, из модуля 2910 предварительного рендеринга/микшера, принимать один или более сигналов 2918 объектов из модуля 2910 предварительного рендеринга/микшера и принимать один или более транспортных SAOC-каналов 2942 и вспомогательную SAOC-информацию 2944 и предоставлять, на их основе, кодированное представление 2932. Кроме того, аудиокодер 2900 также содержит кодер 2950 метаданных объектов, который выполнен с возможностью принимать метаданные 2952 объектов (которые могут оцениваться посредством модуля 2910 предварительного рендеринга/микшера) и кодировать метаданные объектов, чтобы получать кодированные метаданные 2954 объектов. Кодированные метаданные также приняты посредством USAC-кодера 2930 и использованы для того, чтобы предоставлять кодированное представление 2932.
Ниже описываются некоторые подробности относительно отдельных компонентов аудиокодера 2900.
Если обратиться теперь к фиг. 29, описывается аудиодекодер 3000. Аудиодекодер 3000 выполнен с возможностью принимать кодированное представление 3010 и предоставлять, на его основе, многоканальный сигнал 3012 громкоговорителя, сигналы 3014 наушников и/или сигналы 3016 громкоговорителей в альтернативном формате (например, в 5.1-формате). Аудиодекодер 3000 содержит USAC-декодер 3020, который предоставляет один или более сигналов 3022 каналов, один или более предварительно представленных посредством рендеринга сигналов 3024 объектов, один или более сигналов 3026 объектов, один или более транспортных SAOC-каналов 3028, вспомогательную SAOC-информацию 3030 и информацию 3032 сжатых метаданных объектов на основе кодированного представления 3010. Аудиодекодер 3000 также содержит модуль 3040 рендеринга объектов, который выполнен с возможностью предоставлять один или более представленных посредством рендеринга сигналов 3042 объектов на основе одного или более сигналов 3026 объектов и информацию 3044 метаданных объектов, при этом информация 3044 метаданных объектов предоставляется посредством декодера 3050 метаданных объектов на основе информации 3032 сжатых метаданных объектов. Аудиодекодер 3000 также содержит, необязательно, SAOC-декодер 3060, который выполнен с возможностью принимать транспортный SAOC-канал 3028 и вспомогательную SAOC-информацию 3030 и предоставлять, на их основе, один или более представленных посредством рендеринга сигналов 3062 объектов. Аудиодекодер 3000 также содержит микшер 3070, который выполнен с возможностью принимать сигналы 3022 каналов, предварительно представленные посредством рендеринга сигналы 3024 объектов, представленные посредством рендеринга сигналы 3042 объектов и представленные посредством рендеринга сигналы 3062 объектов и предоставлять, на их основе, множество микшированных сигналов 3072 каналов, которые, например, могут составлять многоканальные сигналы 3012 громкоговорителей. Аудиодекодер 3000, например, может также содержать модуль 3080 бинаурального рендеринга, который выполнен с возможностью принимать микшированные сигналы 3072 каналов и предоставлять, на их основе, сигналы 3014 наушников. Кроме того, аудиодекодер 3000 может содержать преобразование 3090 формата, которое выполнено с возможностью принимать микшированные сигналы 3072 каналов и информацию 3092 схемы размещения для воспроизведения и предоставлять, на их основе, сигнал 3016 громкоговорителя для альтернативной компоновки громкоговорителей.
Далее описываются некоторые подробности относительно компонентов аудиокодера 2900 и аудиодекодера 3000.
19.1. Модуль предварительного рендеринга/микшер
Модуль 2910 предварительного рендеринга/микшер необязательно может быть использован для того, чтобы преобразовывать входную сцену каналов плюс объектов в сцену каналов перед кодированием. Функционально, он может быть идентичным, например, модулю рендеринга объектов/микшеру, описанному ниже.
Предварительный рендеринг объектов, например, может обеспечивать детерминированную энтропию сигналов на входе кодера, которая по существу является независимой от числа одновременно активных сигналов объектов.
При предварительном рендеринге объектов, не требуется передача метаданных объектов.
Сигналы дискретных объектов представляются посредством рендеринга в схему размещения каналов, которую кодер выполнен с возможностью использовать, весовые коэффициенты объектов для каждого канала получаются из ассоциированных метаданных 1952 объектов (OAM).
19.2. Базовый USAC-кодек
Базовый кодек 2930, 3020 для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и предварительно представленных посредством рендеринга сигналов основан на MPEG-D USAC-технологии. Он обрабатывает декодирование множества сигналов посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы и объекты преобразуются в канальные USAC-элементы (CPE, SCE, LFE), и соответствующая информация передается в декодер.
Все дополнительные рабочие данные, такие как SAOC-данные или метаданные объектов, проходят через расширенные элементы и учитываются при управлении скоростью кодеров. Декодирование объектов является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Возможны следующие варианты кодирования объектов:
- Предварительно представленные посредством рендеринга объекты: сигналы объектов представляются посредством рендеринга и микшируются в 22.2-канальные сигналы перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы.
- Формы сигналов дискретных объектов: объекты, применяемые в качестве монофонических форм сигнала для кодера. Кодер использует одноканальные элементы (SCE) для того, чтобы передавать объекты в дополнение к сигналам каналов. Декодированные объекты представляются посредством рендеринга и микшируются на стороне приемного устройства. Информация сжатых метаданных объектов передается в приемное устройство/модуль рендеринга совместно.
- Формы сигналов параметрических объектов: свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров. Понижающее микширование сигналов объектов кодируется с помощью USAC. Параметрическая информация передается совместно. Число каналов понижающего микширования выбирается в зависимости от числа объектов и полной скорости передачи данных. Информация сжатых метаданных объектов передается в модуль SAOC-рендеринга.
19.3. SAOC
SAOC-кодер 2940 и SAOC-декодер 3060 для сигналов объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов на основе меньшего числа передаваемых каналов и дополнительных параметрических данных (разностей уровней объектов (OLD), межобъектных корреляций (IOC), усилений при понижающем микшировании (DMG)). Дополнительные параметрические данные демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает декодирование очень эффективным. SAOC-кодер принимает в качестве ввода сигналы объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию (которая пакетирована в трехмерный поток 2932, 3010 аудиобитов) и транспортные SAOC-каналы (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 3000 восстанавливает сигналы объектов/каналов из декодированных транспортных SAOC-каналов и 3028 параметрической информации 3030 и формирует выходную аудиосцену на основе схемы размещения для воспроизведения, информации распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.
19.4. Кодек метаданных объектов
Для каждого объекта, ассоциированные метаданные, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 2954, 3032 объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации.
19.5. Модуль рендеринга объектов/микшер
Модуль рендеринга объектов использует распакованные метаданные 3044 объектов (OAM) для того, чтобы формировать формы сигналов объектов согласно данному формату воспроизведения. Каждый объект представляется посредством рендеринга в определенные выходные каналы согласно своим метаданным. Вывод этого блока получается в результате суммы частичных результатов.
Если декодируются как канальный контент, так и дискретные/параметрические объекты, канальные формы сигналов и представленные посредством рендеринга формы сигналов объектов микшируются перед выводом результирующих форм сигналов (или перед их подачей в модуль постпроцессора, такой как модуль бинаурального рендеринга или модуль рендеринга громкоговорителей).
19.6. Модуль бинаурального рендеринга
Модуль 3080 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала таким образом, что каждый входной канал представлен посредством виртуального источника звука. Обработка осуществляется покадрово в QMF-области. Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.
19.7. Модуль рендеринга громкоговорителей/преобразование формата
Модуль 3090 рендеринга громкоговорителей преобразует между конфигурацией передаваемых каналов и требуемым форматом воспроизведения. Таким образом, далее он называется "преобразователем форматов". Преобразователь форматов выполняет преобразования в меньшие числа выходных каналов, т.е. он создает понижающего микширования. Система автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных и выходных форматов и применяет эти матрицы в процессе понижающего микширования. Преобразователь форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.
Фиг. 30 показывает принципиальную блок-схему преобразователя форматов. Другими словами, фиг. 30 показывает структуру преобразователя форматов.
Как можно видеть, преобразователь 3100 форматов принимает выходные сигналы 3110 микшера, например, микшированные сигналы 3072 каналов и предоставляет сигналы 3112 громкоговорителей, например, сигналы 3016 динамиков. Преобразователь форматов содержит процесс 3120 понижающего микширования в QMF-области и конфигуратор 3130 понижающего микширования, при этом конфигуратор понижающего микширования предоставляет конфигурационную информацию для процесса 3020 понижающего микширования на основе информации 3032 схемы размещения выходов микшера и информации 3034 схемы размещения для воспроизведения.
19.8. Общие примечания
Кроме того, следует отметить, что принципы, описанные в данном документе, например, аудиодекодер 100, аудиокодер 200, многоканальный декоррелятор 600, многоканальный аудиодекодер 700, аудиокодер 800 или аудиодекодер 1550, могут использоваться в аудиокодере 2900 и/или в аудиодекодере 3000. Например, вышеупомянутые аудиокодеры/декодеры могут использоваться в качестве части SAOC-кодера 2940 и/или в качестве части SAOC-декодера 3060. Тем не менее, принципы, упомянутые выше, также могут использоваться в других позициях трехмерного аудиодекодера 3000 и/или аудиокодера 2900.
Естественно, способы, упомянутые выше, также могут использоваться в принципах для кодирования или декодирования аудиоинформации согласно фиг. 28 и 29.
20. Дополнительный вариант осуществления
20.1. Введение
Далее описывается другой вариант осуществления согласно настоящему изобретению.
Фиг. 31 показывает принципиальную блок-схему процессора понижающего микширования, согласно варианту осуществления настоящего изобретения.
Процессор 3100 понижающего микширования содержит обратный микшер 3110, модуль 3120 рендеринга, модуль 3130 комбинирования и многоканальный декоррелятор 3140. Модуль рендеринга предоставляет представленные посредством рендеринга аудиосигналы
Figure 00000217
в модуль 3130 комбинирования и в многоканальный декоррелятор 3140. Многоканальный декоррелятор содержит предварительный микшер 3150, который принимает представленные посредством рендеринга аудиосигналы (которые могут рассматриваться как первый набор входных сигналов декоррелятора) и предоставляет, на их основе, предварительно микшированный второй набор входных сигналов декоррелятора в ядро 3160 декоррелятора. Ядро декоррелятора предоставляет первый набор выходных сигналов декоррелятора на основе второго набора входных сигналов декоррелятора для использования посредством постмикшера 3170. постмикшер постмикширует (или повышающе микширует) выходные сигналы декоррелятора, предоставленные посредством ядра 3160 декоррелятора, чтобы получать постмикшированный второй набор выходных сигналов декоррелятора, который предоставляется в модуль 3130 комбинирования.
Модуль 3130 рендеринга, например, может применять матрицу R для рендеринга, предварительный микшер, например, может применять матрицу Mpre для предварительного микширования, постмикшер, например, может применять матрицу Mpost для постмикширования, и модуль комбинирования, например, может применять матрицу P для комбинирования.
Следует отметить, что процессор 3100 понижающего микширования либо его отдельные компоненты или функциональности могут использоваться в аудиодекодерах, описанных в данном документе. Кроме того, следует отметить, что процессор понижающего микширования может дополняться посредством любых из признаков и функциональностей, описанных в данном документе.
20.2. Трехмерная SAOC-обработка
Применяется гибридная гребенка фильтров, описанная в 23003-1:2007 ISO/IEC. Деквантование параметров DMG, OLD, IOC соответствует правилам, идентичным правилам, заданным в 7.1.2 23003-2:2010 ISO/IEC.
20.2.1. Сигналы и параметры
Аудиосигналы задаются для каждого временного кванта n и каждой гибридной подполосы k частот. Соответствующие трехмерные SAOC-параметры задаются для каждого параметрического временного кванта и полосы m частот обработки. Последующее преобразование между гибридной и параметрической областью указывается посредством таблицы 31 23003-1:2007 ISO/IEC. Следовательно, все вычисления выполняются относительно определенного времени/индексов полос частот, и соответствующие размерности подразумеваются для каждой введенной переменной.
Доступные данные в трехмерном SAOC-декодере состоят из многоканального сигнала X понижающего микширования, ковариационной матрицы E, матрицы R рендеринга и матрицы D понижающего микширования.
20.2.1.1. Параметры объектов
Ковариационная матрица E размера N×N с элементами ei,j представляет аппроксимацию ковариационной матрицы
Figure 00000218
исходных сигналов и получается из параметров OLD и IOC следующим образом:
Figure 00000219
Здесь, деквантованные параметры объектов получаются следующим образом:
Figure 00000220
20.2.1.3. Матрица понижающего микширования
Матрица D понижающего микширования, применяемая к входным аудиосигналам S, определяет сигнал понижающего микширования в качестве X=DS. Матрица D понижающего микширования размера
Figure 00000221
получается следующим образом:
Figure 00000222
Матрица
Figure 00000223
и матрица
Figure 00000224
имеют различные размеры в зависимости от режима обработки. Матрица
Figure 00000225
получается из параметров DMG следующим образом:
Figure 00000226
, если DMG-данные для (i, j) не присутствуют в потоке битов
, в противном случае
Здесь, деквантованные параметры понижающего микширования получаются следующим образом:
Figure 00000227
20.2.1.3.1. Прямой режим
В случае прямого режима, не используется предварительное микширование. Матрица
Figure 00000228
имеет размер
Figure 00000229
и задается следующим образом:
Figure 00000230
. Матрица
Figure 00000231
имеет размер
Figure 00000232
и получается из параметров DMG согласно 20.2.1.3.
20.2.1.3.2. Режим предварительного микширования
В случае режима предварительного микширования, матрица
Figure 00000228
имеет размер
Figure 00000233
и задается следующим образом:
Figure 00000234
где матрица предварительного микширования размера
Figure 00000235
принимается как ввод в трехмерный SAOC-декодер из модуля рендеринга объектов.
Матрица
Figure 00000236
имеет размер
Figure 00000237
и получается из параметров DMG согласно 20.2.1.3
20.2.1.4. Матрица рендеринга
Матрица R рендеринга, применяемая к входным аудиосигналам S, определяет целевой представленный посредством рендеринга вывод в качестве Y=RS. Матрица R рендеринга размера
Figure 00000238
задается следующим образом:
Figure 00000239
где
Figure 00000240
размера
Figure 00000241
представляет матрицу рендеринга, ассоциированную с входными каналами, и
Figure 00000242
размера
Figure 00000243
представляет матрицу рендеринга, ассоциированную с входными объектами.
20.2.1.4. Целевая выходная ковариационная матрица
Ковариационная матрица C размера
Figure 00000244
с элементами ci,j представляет аппроксимацию целевой выходной ковариационной матрицы сигналов
Figure 00000245
и получается из ковариационной матрицы E и матрицы R рендеринга:
Figure 00000246
20.2.2. Декодирование
Описывается способ для получения выходного сигнала с использованием трехмерных SAOC-параметров и информации рендеринга. Трехмерный SAOC-декодер, например, может состоять из процессора трехмерных SAOC-параметров и процессора трехмерного SAOC-понижающего микширования.
20.2.2.1. Процессор понижающего микширования
Выходной сигнал процессора понижающего микширования (представленный в гибридной QMF-области) подается в соответствующую гребенку синтезирующих фильтров, как описано в ISO/IEC 23003-1:2007, что дает в результате конечный вывод трехмерного SAOC-декодера. Подробная структура процессора понижающего микширования проиллюстрирована на фиг. 31.
Выходной сигнал
Figure 00000247
вычисляется из многоканального сигнала X понижающего микширования и декоррелированного многоканального сигнала
Figure 00000248
следующим образом:
Figure 00000249
где U представляет матрицу параметрического обратного микширования и задается в 20.2.2.1.1 и 20.2.2.1.2.
Декоррелированный многоканальный сигнал
Figure 00000248
вычисляется согласно 20.2.3.
Figure 00000250
Матрица
Figure 00000251
микширования описывается в 20.2.3. Матрицы Mpre для различной выходной конфигурации предоставлены на фиг. 19-23, и матрицы Mpost получаются с использованием следующего уравнения:
Figure 00000252
Режим декодирования управляется посредством элемента bsNumSaocDmxObjects потока битов, как показано на фиг. 32.
20.2.2.1.1. Комбинированный режим декодирования
В случае комбинированного режима декодирования, матрица U параметрического обратного микширования задается следующим образом:
Figure 00000253
Матрица J размера
Figure 00000254
задается посредством
Figure 00000255
при
Figure 00000256
.
20.2.2.1.2. Независимый режим декодирования
В случае независимого режима декодирования, матрица U обратного микширования задается следующим образом:
Figure 00000257
Figure 00000258
Канальная ковариационная матрица
Figure 00000259
размера
Figure 00000260
и объектно-ориентированная ковариационная матрица
Figure 00000261
размера
Figure 00000262
получаются из ковариационной матрицы E посредством выбора только соответствующих диагональных блоков:
Figure 00000263
где матрица
Figure 00000264
представляет взаимную ковариационную матрицу между входными каналами и входными объектами и не обязательно должна вычисляться.
Канальная матрица
Figure 00000265
понижающего микширования размера
Figure 00000266
и объектно-ориентированная матрица
Figure 00000267
понижающего микширования размера
Figure 00000268
получаются из матрицы D понижающего микширования посредством выбора только соответствующих диагональных блоков:
Figure 00000269
Матрица
Figure 00000270
размера
Figure 00000271
извлекается, соответственно, в 20.2.2.1.4 для:
Figure 00000272
Матрица
Figure 00000273
размера
Figure 00000274
извлекается, соответственно, в 20.2.2.1.4 для:
Figure 00000275
20.2.2.1.4. Вычисление матрицы J
Матрица
Figure 00000276
вычисляется с использованием следующего уравнения:
Figure 00000277
Здесь сингулярный вектор V матрицы
Figure 00000278
получается с использованием следующего характерного уравнения:
Figure 00000279
Регуляризованная инверсия
Figure 00000280
диагональной матрицы
Figure 00000281
сингулярных значений вычисляется следующим образом:
Figure 00000282
Относительный скаляр
Figure 00000283
регуляризации определяется с использованием абсолютного порогового значения
Figure 00000284
и максимального значения
Figure 00000281
следующим образом:
Figure 00000285
20.2.3. Декорреляция
Декоррелированные сигналы Xd созданы из декоррелятора, описанного в 6.6.2 23003-1:2007 ISO/IEC, с bsDecorrConfig==0 и индексом декоррелятора, x, согласно таблицам на фиг. 19-24. Следовательно, decorrFunc() обозначает процесс декорреляции:
Figure 00000286
20.2.4. Матрица P микширования - первый вариант
Вычисление матрицы
Figure 00000287
микширования управляется посредством элемента bsDecorrelationMethod потока битов. Матрица P имеет размер
Figure 00000288
, и
Figure 00000289
и
Figure 00000290
имеют размер
Figure 00000291
.
20.2.4.1. Режим энергетической компенсации
Режим энергетической компенсации использует декоррелированные сигналы для того, чтобы компенсировать потери энергии в параметрическом восстановлении. Матрицы
Figure 00000289
и
Figure 00000290
микширования задаются следующим образом:
Figure 00000292
где
Figure 00000293
является постоянной, используемой для того, чтобы ограничивать величину декоррелированного компонента, суммируемого с выходными сигналами.
20.2.4.2. Режим ограниченного регулирования ковариантности
Режим ограниченного регулирования ковариантности обеспечивает то, что ковариационная матрица
Figure 00000294
микшированных декоррелированных сигналов аппроксимирует ковариационную матрицу
Figure 00000295
разностей.
Figure 00000296
Матрицы
Figure 00000289
и
Figure 00000290
микширования задаются с использованием следующих уравнений:
Figure 00000297
при этом регуляризованная инверсия
Figure 00000298
диагональной матрицы
Figure 00000299
сингулярных значений вычисляется следующим образом:
Figure 00000300
Относительный скаляр
Figure 00000301
регуляризации определяется с использованием абсолютного порогового значения
Figure 00000302
и максимального значения
Figure 00000303
следующим образом:
Figure 00000304
Матрица
Figure 00000305
разлагается с использованием разложения по сингулярным значениям следующим образом:
Figure 00000306
Ковариационная матрица
Figure 00000307
декоррелированных сигналов также выражается с использованием разложения по сингулярным значениям:
Figure 00000308
20.2.4.3. Режим общего регулирования ковариантности
Режим общего регулирования ковариантности обеспечивает то, что ковариационная матрица
Figure 00000309
конечных выходных сигналов аппроксимирует целевую ковариационную матрицу:
Figure 00000310
. Матрица P микширования задается с использованием следующего уравнения:
Figure 00000311
при этом регуляризованная инверсия
Figure 00000312
диагональной матрицы
Figure 00000313
сингулярных значений вычисляется следующим образом:
Figure 00000314
Относительный скаляр
Figure 00000315
регуляризации определяется с использованием абсолютного порогового значения
Figure 00000316
и максимального значения
Figure 00000317
следующим образом:
Figure 00000318
Целевая ковариационная матрица C разлагается с использованием разложения по сингулярным значениям следующим образом:
Figure 00000319
Ковариационная матрица
Figure 00000320
комбинированных сигналов также выражается с использованием разложения по сингулярным значениям:
Figure 00000321
Матрица H представляет прототипную матрицу весовых коэффициентов размера
Figure 00000322
и задается посредством следующего уравнения:
Figure 00000323
20.2.4.4. Введенные ковариационные матрицы
Матрица
Figure 00000324
представляет разность между целевой выходной ковариационной матрицей C и ковариационной матрицей
Figure 00000325
параметрически восстановленных сигналов и задается следующим образом:
Figure 00000326
Матрица
Figure 00000325
представляет ковариационную матрицу
Figure 00000327
параметрически оцененных сигналов и задается с использованием следующего уравнения:
Figure 00000328
Матрица
Figure 00000329
представляет ковариационную матрицу
Figure 00000330
декоррелированных сигналов и задается с использованием следующего уравнения:
Figure 00000331
При рассмотрении сигнала
Figure 00000332
состоящего из комбинации параметрических оцененных и декоррелированных сигналов:
Figure 00000333
ковариационная матрица
Figure 00000332
задается посредством следующего уравнения:
Figure 00000334
Матрица
Figure 00000335
представляет, например, оцененную ковариационную матрицу декоррелированных сигналов после того, как применена матрица
Figure 00000336
микширования, и задается с использованием следующего уравнения:
Figure 00000337
20.2.5. Матрица P микширования - второй вариант
Вычисление матрицы
Figure 00000338
микширования управляется посредством элемента bsDecorrelationMethod потока битов. Матрица P имеет размер
Figure 00000339
, и матрицы
Figure 00000340
и
Figure 00000341
имеют размер
Figure 00000342
. Матрица ограничения
Figure 00000343
размера
Figure 00000344
задается следующим образом:
Figure 00000345
где ковариационные матрицы
Figure 00000346
,
Figure 00000347
и
Figure 00000348
предоставлены, например, в разделе 20.2.4.4, и
Figure 00000349
является постоянной, используемой для того, чтобы ограничивать величину декоррелированного компонента, суммируемого с выходными сигналами.
20.2.5.1. Режим энергетической компенсации
Режим энергетической компенсации использует декоррелированные сигналы для того, чтобы компенсировать потери энергии в параметрическом восстановлении. Матрицы
Figure 00000350
и
Figure 00000351
микширования задаются следующим образом:
Figure 00000352
20.2.5.2. Дополнительные принципы и подробности
Относительно дополнительных принципов и дополнительных подробностей, также следует обратиться к разделам 20.2.4.2-20.2.4.4.
20.3. Примечания относительно системы обозначений
Следует отметить, что различные системы обозначений используются в настоящей заявке. Тем не менее, из контекста очевидно то, какая система обозначений применяется к конкретному уравнению.
Например, матрица микширования обозначена с помощью F или
Figure 00000353
в некоторых частях описания, в то время как матрица микширования обозначена с помощью P в других частях описания.
Кроме того, компонент матрицы микширования, который должен применяться к сухому сигналу (или к сухим сигналам), обозначен с помощью P в некоторых частях описания и с помощью
Figure 00000354
в других частях описания. Аналогично, компонент матрицы микширования, который должен применяться к мокрому сигналу (или к мокрым сигналам), обозначен с помощью M в некоторых частях описания и с помощью
Figure 00000355
в других частях описания. Кроме того, ковариационная матрица
Figure 00000356
мокрых сигналов (перед этапом микширования с матрицей M) равна ковариационной матрице
Figure 00000357
декоррелированных сигналов.
21. Альтернативы реализации
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
Изобретаемый кодированный аудиосигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными посредством описания и пояснения вариантов осуществления в данном документе.
Библиографический список
[BCC] C. Faller и F. Baumgarte "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans, on Speech and Audio Proc, издание 11, номер 6, ноябрь 2003 года.
[Blauert] J. Blauert "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, Лондон, 1997 год.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Париж, 2006 год.
[ISS1] M. Parvaix и L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010 год.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with the single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010 год.
[ISS3] A. Liutkus и J. Pinel и R. Badeau и L. Girin и G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011 год.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 год.
[ISS5] S. Zhang и L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011 год.
[ISS6] L. Girin и J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011 год.
[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround", ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.
[OCD] J. Vilkamo, T. Backstrom и A. Kuntz "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013 год, в печати.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, апрель 2007 года.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers и VV. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric object Based Audio Coding", 124th AES Convention, Амстердам, 2008 год.
[SAOC] ISO/IEC "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
Международный Патент № WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING", выданный 9 марта 2006 года.

Claims (187)

1. Многоканальный аудиодекодер (100; 700; 1550; 3000) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 712, 714; 1552a-1552n; 3012) на основе кодированного представления (110; 710; 1516a, 1516b, 1518),
- при этом многоканальный аудиодекодер выполнен с возможностью осуществлять рендеринг (130; 1580) множества декодированных аудиосигналов (122; 1562a-1562n,
Figure 00000358
), которые получаются на основе кодированного представления, в многоканальную целевую сцену в зависимости от одного или более параметров (132) рендеринга, которые задают матрицу рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов (134, 136; 1582a-1582n,
Figure 00000359
), и
- при этом многоканальный аудиодекодер выполнен с возможностью извлекать (140; 1590) один или более декоррелированных аудиосигналов (142, 144; 1592a-1592n) из представленных посредством рендеринга аудиосигналов, и
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать (150; 1598) представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы;
- при этом многоканальный аудиодекодер выполнен с возможностью получать декодированные аудиосигналы, которые представляются посредством рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов, с использованием параметрического восстановления (120; 1560);
- при этом декодированные аудиосигналы представляют собой восстановленные сигналы объектов, и
- при этом многоканальный аудиодекодер выполнен с возможностью извлекать восстановленные сигналы объектов из одного или более сигналов (1516a, 1516b) понижающего микширования с использованием вспомогательной информации (1518).
2. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью извлекать коэффициенты обратного микширования из вспомогательной информации и применять коэффициенты обратного микширования, чтобы извлекать восстановленные сигналы объектов из одного или более сигналов понижающего микширования с использованием коэффициентов обратного микширования.
3. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами для того, чтобы, по меньшей мере, частично достигать требуемых характеристик корреляции или характеристик ковариантности выходных аудиосигналов.
4. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами для того, чтобы, по меньшей мере, частично компенсировать энергетические потери во время параметрического восстановления (120; 1560) декодированных аудиосигналов (122; 1562a-1562n), которые представляются посредством рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов.
5. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью определять требуемые характеристики корреляции или требуемые характеристики ковариантности выходных аудиосигналов, и
- при этом многоканальный аудиодекодер выполнен с возможностью регулировать комбинацию (150; 1598) представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы, так что характеристики корреляции или характеристики ковариантности полученных выходных аудиосигналов аппроксимируют или равны требуемым характеристикам корреляции или требуемым характеристикам (C) ковариантности.
6. Многоканальный аудиодекодер по п.5, при этом многоканальный аудиодекодер выполнен с возможностью определять требуемые характеристики корреляции или требуемые характеристики (C) ковариантности в зависимости от информации (R) рендеринга, описывающей рендеринг (130; 1560) множества декодированных аудиосигналов (
Figure 00000360
), которые получаются на основе кодированного представления, чтобы получать множество представленных посредством рендеринга аудиосигналов (
Figure 00000361
).
7. Многоканальный аудиодекодер по п.5, при этом многоканальный аудиодекодер выполнен с возможностью определять требуемые характеристики корреляции или требуемые характеристики (C) ковариантности в зависимости от информации корреляции объектов или информации
Figure 00000362
ковариантности объектов, описывающей характеристики множества аудиообъектов и/или взаимосвязь между множеством аудиообъектов.
8. Многоканальный аудиодекодер по п.7, при этом многоканальный аудиодекодер выполнен с возможностью определять информацию корреляции объектов или информацию
Figure 00000362
ковариантности объектов на основе вспомогательной информации (1518), включенной в кодированное представление.
9. Многоканальный аудиодекодер по п.5, при этом многоканальный аудиодекодер выполнен с возможностью определять фактические характеристики корреляции или характеристики (ES) ковариантности представленных посредством рендеринга аудиосигналов и одного или более декоррелированных аудиосигналов, и
- регулировать комбинацию (150; 1598) представленных посредством рендеринга аудиосигналов с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы, в зависимости от фактических характеристик корреляции или характеристик (ES) ковариантности представленных посредством рендеринга аудиосигналов и одного или более декоррелированных аудиосигналов.
10. Многоканальный аудиодекодер по п.1,
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы
Figure 00000363
с одним или более декоррелированными аудиосигналами W, чтобы получать выходные аудиосигналы
Figure 00000364
согласно следующему:
Figure 00000365
- где P является матрицей микширования, которая применяется к представленным посредством рендеринга аудиосигналам
Figure 00000363
, и
- где M является матрицей микширования, которая применяется к одному или более декоррелированным аудиосигналам W.
11. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью регулировать, по меньшей мере, одну из матрицы P микширования и матрицы M микширования таким образом, что характеристики корреляции или характеристики
Figure 00000366
ковариантности полученных выходных аудиосигналов
Figure 00000367
аппроксимируют или равны требуемым характеристикам корреляции или требуемым характеристикам (C) ковариантности.
12. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью получать комбинированную матрицу F микширования с помощью:
Figure 00000368
,
так что ковариационная матрица
Figure 00000369
полученных выходных аудиосигналов
Figure 00000367
аппроксимирует или равна требуемой ковариационной матрице C.
13. Многоканальный аудиодекодер по п.13,
- при этом многоканальный аудиодекодер выполнен с возможностью определять комбинированную матрицу F микширования таким образом, что ковариационная матрица:
Figure 00000370
равна требуемой ковариационной матрице:
Figure 00000371
- где ES является ковариационной матрицей сигнала S, комбинирующего представленные посредством рендеринга аудиосигналы
Figure 00000372
и один или более декоррелированных аудиосигналов W, который задается как
Figure 00000373
, и
- где EX является ковариационной матрицей объектов.
14. Многоканальный аудиодекодер по п.1,
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы
Figure 00000374
с одним или более декоррелированными аудиосигналами W, чтобы получать выходные аудиосигналы
Figure 00000375
согласно следующему:
Figure 00000376
,
или согласно следующему:
Figure 00000377
,
или согласно следующему:
Figure 00000378
,
- где P является матрицей микширования, которая применяется к представленным посредством рендеринга аудиосигналам
Figure 00000379
, и
- где M является матрицей микширования, которая применяется к одному или более декоррелированным аудиосигналам W,
- где Adry является первой матрицей коррекции или первой матрицей регулирования, где Awet является второй матрицей коррекции или второй матрицей регулирования.
15. Многоканальный аудиодекодер по п.14,
- при этом многоканальный аудиодекодер выполнен с возможностью регулировать, по меньшей мере, одну из матрицы P микширования и матрицы M микширования таким образом, что характеристики корреляции или характеристики
Figure 00000366
ковариантности полученных выходных аудиосигналов
Figure 00000367
или аудиосигналов, полученных посредством микширования
Figure 00000379
и W с использованием P и M, аппроксимируют или равны требуемым характеристикам корреляции или требуемым характеристикам (C) ковариантности.
16. Многоканальный аудиодекодер по п.14,
- при этом многоканальный аудиодекодер выполнен с возможностью получать комбинированную матрицу F микширования с помощью:
F=[P M],
так что ковариационная матрица
Figure 00000380
полученных выходных аудиосигналов
Figure 00000381
или ковариационная матрица аудиосигналов, полученная посредством микширования
Figure 00000382
и W с использованием P и M, аппроксимирует или равна требуемой ковариационной матрице C.
17. Многоканальный аудиодекодер по п.16,
- при этом многоканальный аудиодекодер выполнен с возможностью определять комбинированную матрицу F микширования таким образом, что ковариационная матрица:
Figure 00000383
равна требуемой ковариационной матрице:
Figure 00000384
- где ES является ковариационной матрицей сигнала S, комбинирующего представленные посредством рендеринга аудиосигналы
Figure 00000382
и один или более декоррелированных аудиосигналов W, который задается как
Figure 00000385
, и
- где EX является ковариационной матрицей объектов.
18. Многоканальный аудиодекодер по п.14,
- при этом многоканальный аудиодекодер выполнен с возможностью определять первую матрицу коррекции таким образом, что вклад представленных посредством рендеринга аудиосигналов в выходные аудиосигналы ограничен, и/или
- при этом многоканальный аудиодекодер выполнен с возможностью определять вторую матрицу коррекции таким образом, что вклад декоррелированных аудиосигналов в выходные аудиосигналы ограничен.
19. Многоканальный аудиодекодер по п.14,
- при этом многоканальный аудиодекодер выполнен с возможностью определять первую матрицу коррекции в зависимости от свойств представленных посредством рендеринга аудиосигналов, и/или в зависимости от свойств декоррелированных аудиосигналов, и/или в зависимости от свойств требуемых выходных аудиосигналов, и/или в зависимости от оцененных свойств микшированных представленных посредством рендеринга аудиосигналов, и/или в зависимости от оцененных свойств микшированных декоррелированных аудиосигналов таким образом, что вклад представленных посредством рендеринга аудиосигналов в выходные аудиосигналы ограничен, и/или
- при этом многоканальный аудиодекодер выполнен с возможностью определять вторую матрицу коррекции в зависимости от свойств представленных посредством рендеринга аудиосигналов, и/или в зависимости от свойств декоррелированных аудиосигналов, и/или в зависимости от свойств требуемых выходных аудиосигналов, и/или в зависимости от оцененных свойств микшированных представленных посредством рендеринга аудиосигналов, и/или в зависимости от оцененных свойств микшированных декоррелированных аудиосигналов таким образом, что вклад декоррелированных аудиосигналов в выходные аудиосигналы ограничен.
20. Многоканальный аудиодекодер по п.19, в котором свойства представленных посредством рендеринга аудиосигналов, и/или декоррелированных аудиосигналов, и/или требуемых выходных аудиосигналов, и/или микшированных представленных посредством рендеринга аудиосигналов, и/или микшированных декоррелированных аудиосигналов являются энергетическими свойствами, или свойствами корреляции, или свойствами ковариантности.
21. Многоканальный аудиодекодер по п.1,
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы
Figure 00000386
с одним или более декоррелированными аудиосигналами W, чтобы получать выходные аудиосигналы
Figure 00000387
согласно следующему:
Figure 00000388
- при этом многоканальный аудиодекодер выполнен с возможностью предоставлять матрицу Awet коррекции таким образом, что Awet является диагональной матрицей, и таким образом, что записи Awet(i,i) матрицы Awet коррекции приводятся, по сравнению с нормальными, неприведенными диагональными записями матрицы Awet коррекции, если отношение между интенсивностью
Figure 00000389
представленного посредством рендеринга аудиосигнала и интенсивностью
Figure 00000390
микшированного декоррелированного аудиосигнала с матрицей M микширования в i-ом выходном аудиосигнале меньше порогового значения.
22. Многоканальный аудиодекодер по п.21, в котором пороговое значение является предварительно определенным постоянным пороговым значением или в котором пороговое значение является изменяющимся во времени и/или изменяющимся по частоте в зависимости от свойств сигналов, например энергетических свойств, свойств корреляции и/или свойств ковариантности.
23. Многоканальный аудиодекодер по п.1,
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы
Figure 00000391
с одним или более декоррелированными аудиосигналами W, чтобы получать выходные аудиосигналы
Figure 00000392
согласно следующему:
Figure 00000393
- где P = Pdry, где M = Pwet,
- где
Figure 00000394
,
- где
Figure 00000395
является ковариационной матрицей представленных посредством рендеринга аудиосигналов
Figure 00000396
, и
- где
Figure 00000397
является оцененной ковариационной матрицей декоррелированных аудиосигналов после того, как применена матрица Pwet,
λDec - значение порога.
24. Многоканальный аудиодекодер по п.14, при этом многоканальный аудиодекодер выполнен с возможностью определять комбинированную матрицу F микширования согласно следующему:
Figure 00000398
где матрицы U, T, V и Q определяются с использованием разложения по сингулярным значениям ковариационных матриц ES и C, что дает в результате:
Figure 00000399
и:
Figure 00000400
- где матрица H задается следующим образом:
Figure 00000401
,
- где
Figure 00000402
и
Figure 00000403
выбраны таким образом, что:
Figure 00000404
25. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью задавать матрицу P микширования как единичную матрицу или ее кратное и вычислять матрицу M микширования.
26. Многоканальный аудиодекодер по п.25, при этом многоканальный аудиодекодер выполнен с возможностью определять матрицу WI микширования таким образом, что разность ΔE между требуемой ковариационной матрицей C и ковариационной матрицей
Figure 00000405
, которая задается следующим образом:
Figure 00000406
,
равна или аппроксимирует ковариантность:
Figure 00000407
- где требуемая ковариационная матрица C задается следующим образом:
Figure 00000408
- где R является матрицей рендеринга,
- где EX является ковариационной матрицей объектов, и
- где EW является ковариационной матрицей одного или более декоррелированных сигналов, и
- где
Figure 00000409
является ковариационной матрицей представленных посредством рендеринга аудиосигналов.
27. Многоканальный аудиодекодер по п.26,
- при этом многоканальный аудиодекодер выполнен с возможностью определять матрицу M микширования согласно следующему:
Figure 00000410
где матрицы U, T, V и Q определяются с использованием разложения по сингулярным значениям ковариационных матриц ΔE и EW, что дает в результате:
Figure 00000411
и:
Figure 00000412
28. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью определять матрицы P, M микширования в соответствии с таким ограничением, что данный представленный посредством рендеринга аудиосигнал микшируется только с декоррелированной версией самого данного представленного посредством рендеринга аудиосигнала.
29. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы с одним или более декоррелированными аудиосигналами таким образом, что только значения автокорреляции или значения автоковариации представленных посредством рендеринга аудиосигналов модифицируются, в то время как значения взаимной корреляции или значения взаимной ковариантности остаются неизменными.
30. Многоканальный аудиодекодер по п.10,
- при этом многоканальный аудиодекодер выполнен с возможностью задавать матрицу P микширования как единичную матрицу или ее кратное и вычислять матрицу M микширования в соответствии с таким ограничением, что WI является диагональной матрицей.
31. Многоканальный аудиодекодер по п.28, при этом многоканальный аудиодекодер выполнен с возможностью комбинировать представленные посредством рендеринга аудиосигналы
Figure 00000413
с одним или более декоррелированными аудиосигналами W, чтобы получать выходные аудиосигналы
Figure 00000414
согласно следующему:
Figure 00000415
- где M является диагональной матрицей микширования, которая применяется к одному или более декоррелированным аудиосигналам W, и
- при этом многоканальный аудиодекодер выполнен с возможностью вычислять диагональные элементы матрицы M микширования таким образом, что диагональные элементы ковариационной матрицы выходных аудиосигналов равны требуемым энергиям.
32. Многоканальный аудиодекодер по п.31, при этом многоканальный аудиодекодер выполнен с возможностью вычислять элементы матрицы M микширования согласно следующему:
Figure 00000416
- где требуемая ковариационная матрица C задается следующим образом:
Figure 00000408
- где R является матрицей рендеринга,
- где EX является ковариационной матрицей объектов,
- где EW является ковариационной матрицей одного или более декоррелированных сигналов, и
- где
Figure 00000417
является пороговым значением, ограничивающим величину декорреляции, суммируемой с сигналами,
- где
Figure 00000418
константа, вводимая, чтобы не допускать деления на нуль.
33. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью учитывать характеристики корреляции или характеристики ковариантности декоррелированных аудиосигналов при определении того, как комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами.
34. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью микшировать представленные посредством рендеринга аудиосигналы и декоррелированные аудиосигналы, так что данный выходной аудиосигнал предоставляется на основе двух или более представленных посредством рендеринга аудиосигналов и, по меньшей мере, одного декоррелированного аудиосигнала.
35. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью переключаться между различными режимами, в которых различные ограничения применяются для определения того, как комбинировать представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы.
36. Многоканальный аудиодекодер по п.1, при этом многоканальный аудиодекодер выполнен с возможностью переключаться между:
- первым режимом, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- вторым режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третьим режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
37. Многоканальный аудиодекодер по п.35, при этом многоканальный аудиодекодер выполнен с возможностью оценивать элемент потока битов кодированного представления, указывающего то, какой из трех режимов для комбинирования представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами должен использоваться, и выбирать режим в зависимости от упомянутого элемента потока битов.
38. Многоканальный аудиокодер (200; 1510; 2900) для предоставления кодированного представления (214; 1516a, 1516b, 1518; 2932) на основе, по меньшей мере, двух входных аудиосигналов (210, 212; 1512a-1512n; 2912, 2914),
- при этом многоканальный аудиокодер выполнен с возможностью предоставлять (220) один или более сигналов (222; 1516a, 1516b) понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов, и
- при этом многоканальный аудиокодер выполнен с возможностью предоставлять (230) один или более параметров (232; 1518), описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и
- при этом многоканальный аудиокодер выполнен с возможностью предоставлять (240) параметр (242; 1518) способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера;
- при этом многоканальный аудиокодер выполнен с возможностью избирательно предоставлять параметр способа декорреляции для того, чтобы сигнализировать один из следующих трех режимов для работы аудиодекодера:
- первый режим, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- второй режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третий режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
39. Многоканальный аудиокодер по п.38, при этом многоканальный аудиокодер выполнен с возможностью выбирать параметр способа декорреляции в зависимости от корреляции входных аудиосигналов.
40. Многоканальный аудиокодер по п.38, при этом многоканальный аудиокодер выполнен с возможностью выбирать параметр способа декорреляции для того, чтобы обозначать первый режим или второй режим, если корреляция между входными аудиосигналами является сравнительно высокой, и
- при этом многоканальный аудиокодер выполнен с возможностью выбирать параметр способа декорреляции для того, чтобы обозначать третий режим, если корреляция между входными аудиосигналами является сравнительно более низкой.
41. Способ (300) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, при этом способ содержит этапы, на которых:
- представляют посредством рендеринга (310) множество декодированных аудиосигналов, которые получаются на основе кодированного представления, в многоканальную целевую сцену в зависимости от одного или более параметров рендеринга, которые задают матрицу рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов,
- извлекают (320) один или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов, и
- комбинируют (330) представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы;
- при этом декодированные аудиосигналы, которые представляются посредством рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов, получаются с использованием параметрического восстановления (120; 1560);
- при этом декодированные аудиосигналы представляют собой восстановленные сигналы объектов; и
- при этом восстановленные сигналы объектов извлекаются из одного или более сигналов (1516a, 1516b) понижающего микширования с использованием вспомогательной информации (1518).
42. Способ (400) для предоставления кодированного представления на основе, по меньшей мере, двух входных аудиосигналов, при этом способ содержит этапы, на которых:
- предоставляют (410) один или более сигналов понижающего микширования на основе, по меньшей мере, двух входных аудиосигналов,
- предоставляют (420) один или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и
- предоставляют (430) параметр способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера;
- при этом способ содержит этап, на котором избирательно предоставляют параметр способа декорреляции для того, чтобы сигнализировать один из следующих трех режимов для работы аудиодекодера:
- первый режим, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- второй режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третий режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
43. Носитель данных, содержащий компьютерную программу для осуществления способа по п.41, когда компьютерная программа работает на компьютере.
44. Носитель данных, содержащий компьютерную программу для осуществления способа по п.42, когда компьютерная программа работает на компьютере.
45. Кодированное аудиопредставление (500), содержащее:
- кодированное представление (510) сигнала понижающего микширования;
- кодированное представление (520) одного или более параметров, описывающих взаимосвязь, по меньшей мере, между двумя входными аудиосигналами, и
- кодированный параметр (530) способа декорреляции, описывающий то, какой режим декорреляции из множества режимов декорреляции должен использоваться на стороне аудиодекодера;
- при этом параметр способа декорреляции сигнализирует один из следующих трех режимов для работы аудиодекодера:
- первый режим, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- второй режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третий режим, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
46. Многоканальный аудиодекодер (100; 700; 1550; 3000) для предоставления, по меньшей мере, двух выходных аудиосигналов (112, 114; 712, 714; 1552a-1552n; 3012) на основе кодированного представления (110; 710; 1516a, 1516b, 1518),
- при этом многоканальный аудиодекодер выполнен с возможностью осуществлять рендеринг (130; 1580) множества декодированных аудиосигналов (122; 1562a-1562n,
Figure 00000419
), которые получаются на основе кодированного представления, в зависимости от одного или более параметров (132) рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов (134, 136; 1582a-1582n,
Figure 00000420
), и
- при этом многоканальный аудиодекодер выполнен с возможностью извлекать (140; 1590) один или более декоррелированных аудиосигналов (142, 144; 1592a-1592n) из представленных посредством рендеринга аудиосигналов, и
- при этом многоканальный аудиодекодер выполнен с возможностью комбинировать (150; 1598) представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы;
- при этом многоканальный аудиодекодер выполнен с возможностью переключаться между:
- первым режимом, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- вторым режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третьим режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
47. Способ (300) для предоставления, по меньшей мере, двух выходных аудиосигналов на основе кодированного представления, при этом способ содержит этапы, на которых:
- представляют посредством рендеринга (310) множество декодированных аудиосигналов, которые получаются на основе кодированного представления, в зависимости от одного или более параметров рендеринга, чтобы получать множество представленных посредством рендеринга аудиосигналов,
- извлекают (320) один или более декоррелированных аудиосигналов из представленных посредством рендеринга аудиосигналов, и
- комбинируют (330) представленные посредством рендеринга аудиосигналы или их масштабированную версию с одним или более декоррелированными аудиосигналами для того, чтобы получать выходные аудиосигналы;
- при этом способ содержит этап, на котором переключаются между:
- первым режимом, в котором разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами,
- вторым режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором разрешается комбинирование данного декоррелированного сигнала, с идентичным или различным масштабированием, с множеством представленных посредством рендеринга аудиосигналов или их масштабированной версией, чтобы регулировать характеристики взаимной корреляции или характеристики взаимной ковариантности выходных аудиосигналов, и
- третьим режимом, в котором не разрешается микширование между различными представленными посредством рендеринга аудиосигналами при комбинировании представленных посредством рендеринга аудиосигналов или их масштабированной версии с одним или более декоррелированными аудиосигналами и в котором не разрешается комбинирование данного декоррелированного сигнала с представленными посредством рендеринга аудиосигналами, за исключением представленного посредством рендеринга аудиосигнала, из которого извлекается данный декоррелированный сигнал.
48. Носитель данных, содержащий компьютерную программу для осуществления способа по п.47, когда компьютерная программа работает на компьютере.
RU2016105755A 2013-07-22 2014-07-17 Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов RU2665917C2 (ru)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP13177374 2013-07-22
EP13177374.9 2013-07-22
EP13189345.5 2013-10-18
EP20130189345 EP2830334A1 (en) 2013-07-22 2013-10-18 Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP14161611.0 2014-03-25
EP14161611 2014-03-25
PCT/EP2014/065397 WO2015011015A1 (en) 2013-07-22 2014-07-17 Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals

Publications (2)

Publication Number Publication Date
RU2016105755A RU2016105755A (ru) 2017-08-25
RU2665917C2 true RU2665917C2 (ru) 2018-09-04

Family

ID=52392762

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016105755A RU2665917C2 (ru) 2013-07-22 2014-07-17 Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов

Country Status (17)

Country Link
US (2) US10431227B2 (ru)
EP (1) EP3022949B1 (ru)
JP (2) JP6449877B2 (ru)
KR (1) KR101829822B1 (ru)
CN (1) CN105612766B (ru)
AU (1) AU2014295207B2 (ru)
BR (1) BR112016001250B1 (ru)
CA (1) CA2919080C (ru)
ES (1) ES2653975T3 (ru)
MX (1) MX361115B (ru)
MY (1) MY195412A (ru)
PL (1) PL3022949T3 (ru)
PT (1) PT3022949T (ru)
RU (1) RU2665917C2 (ru)
SG (1) SG11201600466PA (ru)
TW (1) TWI601408B (ru)
WO (1) WO2015011015A1 (ru)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN110447243B (zh) * 2017-03-06 2021-06-01 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
WO2018162472A1 (en) * 2017-03-06 2018-09-13 Dolby International Ab Integrated reconstruction and rendering of audio signals
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
EP3777245A1 (en) 2018-04-11 2021-02-17 Dolby International AB Methods, apparatus and systems for a pre-rendered signal for audio rendering
KR20200141438A (ko) * 2018-04-11 2020-12-18 돌비 인터네셔널 에이비 6DoF 오디오 렌더링을 위한 방법, 장치 및 시스템, 및 6DoF 오디오 렌더링을 위한 데이터 표현 및 비트스트림 구조
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN118368577A (zh) * 2018-07-02 2024-07-19 杜比实验室特许公司 用于产生或解码包括沉浸式音频信号的位流的方法及装置
PL3818520T3 (pl) * 2018-07-04 2024-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wielo-sygnałowe enkodowanie audio z wykorzystaniem wybielania sygnału jako przetwarzania wstępnego
BR112021025265A2 (pt) * 2019-06-14 2022-03-15 Fraunhofer Ges Forschung Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória
WO2020257331A1 (en) * 2019-06-20 2020-12-24 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
TWI703559B (zh) * 2019-07-08 2020-09-01 瑞昱半導體股份有限公司 音效編碼解碼電路及音頻資料的處理方法
KR102300177B1 (ko) * 2019-09-17 2021-09-08 난징 트월링 테크놀로지 컴퍼니 리미티드 몰입형 오디오 렌더링 방법 및 시스템
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026452A1 (en) * 2004-08-25 2006-03-09 Dolby Laboratories Licensing Corporation Multichannel decorrelation in spatial audio coding
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
RU2439719C2 (ru) * 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
WO2012009851A1 (en) * 2010-07-20 2012-01-26 Huawei Technologies Co., Ltd. Audio signal synthesizer
JP2012505575A (ja) * 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
US20120207307A1 (en) * 2009-09-10 2012-08-16 Jonas Engdegard Audio signal of an fm stereo radio receiver by using parametric stereo
EP2225893B1 (en) * 2008-01-01 2012-09-05 LG Electronics Inc. A method and an apparatus for processing an audio signal

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60312553T2 (de) * 2002-10-14 2007-11-29 Thomson Licensing Verfahren zum kodieren und dekodieren von der breite einer schallquelle in einer audioszene
US8983834B2 (en) 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
WO2007109338A1 (en) 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
RU2390857C2 (ru) 2004-04-05 2010-05-27 Конинклейке Филипс Электроникс Н.В. Многоканальный кодировщик
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
CA2610430C (en) 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US8626503B2 (en) * 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
CN101278598B (zh) 2005-10-07 2011-05-25 松下电器产业株式会社 音频信号处理装置以及音频信号处理方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
WO2007083959A1 (en) 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for processing a media signal
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
JP5222279B2 (ja) * 2006-03-28 2013-06-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルオーディオ再構成における信号整形のための改善された方法
WO2007123788A2 (en) 2006-04-03 2007-11-01 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
MX2009003570A (es) 2006-10-16 2009-05-28 Dolby Sweden Ab Codificacion mejorada y representacion de parametros para codificacion de objetos de mezcla descendente de multicanal.
AU2007328614B2 (en) 2006-12-07 2010-08-26 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8588427B2 (en) 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
ES2461601T3 (es) * 2007-10-09 2014-05-20 Koninklijke Philips N.V. Procedimiento y aparato para generar una señal de audio binaural
EP2082396A1 (en) 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2093911A3 (en) * 2007-11-28 2010-01-13 Lg Electronics Inc. Receiving system and audio data processing method thereof
US8335331B2 (en) * 2008-01-18 2012-12-18 Microsoft Corporation Multichannel sound rendering via virtualization in a stereo loudspeaker system
US20090194756A1 (en) 2008-01-31 2009-08-06 Kau Derchang Self-aligned eletrode phase change memory
KR101183127B1 (ko) * 2008-02-14 2012-09-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 스테레오 입력을 수정하기 위한 방법 및 음향 재생 시스템
ATE557386T1 (de) * 2008-06-26 2012-05-15 France Telecom Raumsynthese mehrkanaliger tonsignale
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
PL2405425T3 (pl) * 2009-04-08 2014-12-31 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do realizacji upmixu sygnału audio downmixu z użyciem wygładzania wartości faz
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
EP2461321B1 (en) 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
RU2573774C2 (ru) 2010-08-25 2016-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер
US9966080B2 (en) * 2011-11-01 2018-05-08 Koninklijke Philips N.V. Audio object encoding and decoding
EP2956935B1 (en) * 2013-02-14 2017-01-04 Dolby Laboratories Licensing Corporation Controlling the inter-channel coherence of upmixed audio signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026452A1 (en) * 2004-08-25 2006-03-09 Dolby Laboratories Licensing Corporation Multichannel decorrelation in spatial audio coding
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
RU2439719C2 (ru) * 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
EP2225893B1 (en) * 2008-01-01 2012-09-05 LG Electronics Inc. A method and an apparatus for processing an audio signal
JP2012505575A (ja) * 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
US20120207307A1 (en) * 2009-09-10 2012-08-16 Jonas Engdegard Audio signal of an fm stereo radio receiver by using parametric stereo
WO2012009851A1 (en) * 2010-07-20 2012-01-26 Huawei Technologies Co., Ltd. Audio signal synthesizer

Also Published As

Publication number Publication date
CN105612766A (zh) 2016-05-25
EP3022949A1 (en) 2016-05-25
PT3022949T (pt) 2018-01-23
WO2015011015A1 (en) 2015-01-29
JP2019032541A (ja) 2019-02-28
CA2919080A1 (en) 2015-01-29
CN105612766B (zh) 2018-07-27
ES2653975T3 (es) 2018-02-09
BR112016001250A2 (ru) 2017-07-25
AU2014295207A1 (en) 2016-03-10
AU2014295207B2 (en) 2017-02-02
BR112016001250B1 (pt) 2022-07-26
TW201521469A (zh) 2015-06-01
JP6449877B2 (ja) 2019-01-09
JP6777700B2 (ja) 2020-10-28
RU2016105755A (ru) 2017-08-25
MY195412A (en) 2023-01-19
EP3022949B1 (en) 2017-10-18
JP2016528811A (ja) 2016-09-15
US20160247507A1 (en) 2016-08-25
MX361115B (es) 2018-11-28
KR20160039634A (ko) 2016-04-11
US10431227B2 (en) 2019-10-01
SG11201600466PA (en) 2016-02-26
PL3022949T3 (pl) 2018-04-30
MX2016000902A (es) 2016-05-31
CA2919080C (en) 2018-06-05
KR101829822B1 (ko) 2018-03-29
US20180350375A1 (en) 2018-12-06
TWI601408B (zh) 2017-10-01

Similar Documents

Publication Publication Date Title
RU2665917C2 (ru) Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов
RU2666640C2 (ru) Многоканальный декоррелятор, многоканальный аудиодекодер, многоканальный аудиокодер, способы и компьютерная программа с использованием предварительного микширования входных сигналов декоррелятора