RU2659497C2 - Управляемое модулем рендеринга пространственное повышающее микширование - Google Patents

Управляемое модулем рендеринга пространственное повышающее микширование Download PDF

Info

Publication number
RU2659497C2
RU2659497C2 RU2016105520A RU2016105520A RU2659497C2 RU 2659497 C2 RU2659497 C2 RU 2659497C2 RU 2016105520 A RU2016105520 A RU 2016105520A RU 2016105520 A RU2016105520 A RU 2016105520A RU 2659497 C2 RU2659497 C2 RU 2659497C2
Authority
RU
Russia
Prior art keywords
processor
signal
channels
output
decoder
Prior art date
Application number
RU2016105520A
Other languages
English (en)
Other versions
RU2016105520A (ru
Inventor
Кристиан ЭРТЕЛЬ
Йоханнес ХИЛЬПЕРТ
Андреас ХЕЛЬЦЕР
Ахим КУНТЦ
Ян ПЛОГСТИС
Михаэль КРАЧМЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016105520A publication Critical patent/RU2016105520A/ru
Application granted granted Critical
Publication of RU2659497C2 publication Critical patent/RU2659497C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

Изобретение относится к средствам для пространственного повышающего микширования. Технический результат заключается в повышении эффективности кодирования. Формируют выходной сигнал процессора на основе входного сигнала процессора. Число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора. Каждый из одного или более процессоров содержит декоррелятор и микшер. Выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора. Выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей. Преобразовывают выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей. Управляют одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора. Управляют одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей. 3 н. и 13 з.п. ф-лы, 13 ил.

Description

Изобретение относится к обработке аудиосигналов и, в частности, к преобразованию формата многоканальных аудиосигналов.
Преобразование формата описывает процесс преобразования определенного числа аудиоканалов в другое представление, подходящее для воспроизведения через отличающееся число аудиоканалов.
Стандартный случай использования для преобразования формата представляет собой понижающее микширование аудиоканалов. В противопоставленном документе [1] приводится пример, в котором понижающее микширование обеспечивает возможность конечным пользователям воспроизводить версию исходного 5.1-материала, даже когда полная 5.1-система мониторинга "домашнего кинотеатра" недоступна. Оборудование, сконструированное с возможностью поддерживать материал по стандарту Dolby Digital, но которое предоставляет только моно- или стереовыводы (например, портативные DVD-проигрыватели, абонентские приставки и т.д.), включает средства для понижающего микширования первоначальных 5.1-каналов в один или два выходных канала в качестве стандарта.
С другой стороны, преобразование формата также может описывать процесс повышающего микширования, например, повышающего микширования стереоматериала, с тем чтобы формировать совместимую с 5.1 версию. Кроме того, бинауральный рендеринг может рассматриваться как преобразование формата.
Далее, пояснены импликации преобразования формата для процесса декодирования сжатых аудиосигналов. Здесь, сжатое представление аудиосигнала (mp4-файл) представляет фиксированное число аудиоканалов, предназначенных для воспроизведения посредством фиксированной компоновки громкоговорителей.
Взаимодействие между аудиодекодером и последующим преобразованием формата в требуемый формат воспроизведения может разделяться на три категории:
1. Процесс декодирования является независимым от конечного сценария воспроизведения. Таким образом, извлекается полное аудиопредставление, и после этого применяется обработка преобразования.
2. Процесс декодирования аудио ограничен по характеристикам и выводит только фиксированный формат. Примеры представляют собой монорадиостанции, принимающие FM-стереопрограммы, или моно-HE-AAC-декодер, принимающий поток HE-AAC v2-битов.
3. Процесс декодирования аудио имеет микширования по конечной компоновке для воспроизведения и адаптирует свою обработку соответствующим образом. Пример приведен в работе "Scalable Channel Decoding for Reduced Speaker Configurations", как задано для стандарта объемного звучания MPEG в противопоставленном документе [2]. Здесь, декодер сокращает число выходных каналов.
Недостатки этих способов заключаются в необязательной высокой сложности и потенциальных артефактах посредством последующей обработки декодированного материала (гребенчатой фильтрации для понижающего микширования, демаскирования для повышающего микширования) (1) и ограниченной гибкости относительно конечного формата вывода (2 и 3).
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов. Цель настоящего изобретения разрешается посредством декодера по п. 1, посредством способа по п. 14 и посредством компьютерной программы по п. 15.
Предусмотрено устройство аудиодекодера для декодирования сжатого входного аудиосигнала, содержащее по меньшей мере один базовый декодер, имеющий один или более процессоров для формирования выходного сигнала процессора на основе входного сигнала процессора, при этом число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора, при этом каждый из одного или более процессоров содержит декоррелятор и микшер, при этом выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора, и при этом выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей;
- по меньшей мере один преобразователь форматов, выполненный с возможностью преобразовывать выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей; и
- устройство управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора, при этом устройство управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей.
Цель процессоров состоит в том, чтобы создавать выходной сигнал процессора, имеющий более высокое число некогерентных/некоррелированных каналов, чем число входных каналов входного сигнала процессора. Более конкретно, каждый из процессоров формирует выходной сигнал процессора с множеством некогерентных/некоррелированных выходных каналов, например, с двумя выходными каналами, причем корректные пространственные сигнальные метки из входного сигнала процессора имеют меньшее число входных каналов, например, из входного моносигнала.
Такие процессоры содержат декоррелятор и микшер. Декоррелятор используется для того, чтобы создавать сигнал декоррелятора из канала входного сигнала процессора. Типично декоррелятор (декорреляционный фильтр) состоит из частотно-зависимой предварительной задержки, после которой предусмотрены всечастотные (IIR) секции.
Сигнал декоррелятора и соответствующий канал входного сигнала процессора затем подаются в микшер. Микшер выполнен с возможностью устанавливать выходной сигнал процессора посредством микширования сигнала декоррелятора и соответствующего канала входного сигнала процессора, в котором вспомогательная информация используется для того, чтобы синтезировать корректную когерентность/корреляцию и корректный коэффициент интенсивности выходных каналов выходного сигнала процессора.
Выходные каналы выходного сигнала процессора в таком случае являются некогерентными/некоррелированными, так что выходные каналы процессора должны восприниматься как независимые источники звука, если они подаются в различные громкоговорители в различных позициях.
Преобразователь форматов может преобразовывать выходной сигнал базового декодера таким образом, что он является подходящим для воспроизведения в компоновке громкоговорителей, которая может отличаться от эталонной компоновки громкоговорителей. Эта компоновка называется "целевой компоновкой громкоговорителей".
В случае если выходные каналы одного процессора не требуются для конкретной целевой компоновки громкоговорителей посредством последующего преобразователя форматов в некогерентной/некоррелированной форме, синтез корректной корреляции становится перцепционно нерелевантным. Следовательно, для этих процессоров декоррелятор может опускаться. Тем не менее, в общем, микшер остается полностью функционирующим, когда декоррелятор отключается. Как результат, выходные каналы выходного сигнала процессора формируются, даже если декоррелятор отключается.
Следует отметить, что в этом случае каналы выходного сигнала процессора являются когерентными/коррелированными, но не идентичными. Это означает, что каналы выходного сигнала процессора могут дополнительно обрабатываться независимо друг от друга после процессора, при этом, например, коэффициент интенсивности и/или другая пространственная информация может использоваться посредством преобразователя форматов для того, чтобы задавать уровни каналов выходного аудиосигнала.
Поскольку декорреляционная фильтрация требует значительной вычислительной сложности, полная рабочая нагрузка по декодированию может существенно уменьшаться посредством предложенного устройства декодера.
Хотя декорреляторы, в частности, их всечастотные фильтры спроектированы таким образом, чтобы оказывать минимальное влияние на субъективное качество звука, нельзя во всех случаях исключать, что вводятся слышимые артефакты, например, размывание переходных частей вследствие фазовых искажений или "звона" определенных частотных компонентов. Следовательно, может достигаться повышение качества аудиозвука, поскольку опускаются побочные эффекты процесса обработки декоррелятора.
Следует отметить, что эта обработка должна применяться только для полос частот, в которых применяется декорреляция. Влияние на полосы частот, в которых используется остаточное кодирование, не оказывается.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью деактивировать по меньшей мере один или более процессоров, так что входные каналы входного сигнала процессора подаются в выходные каналы выходного сигнала процессора в необработанной форме. Посредством этого признака может уменьшаться число каналов, которые не являются идентичными. Это может быть преимущественным, если целевая компоновка громкоговорителей содержит число громкоговорителей, которое является очень небольшим по сравнению с числом громкоговорителей эталонной компоновки громкоговорителей.
В преимущественных вариантах осуществления, процессор представляет собой инструментальное средство декодирования с одним входом и двумя выходами (OTT), при этом декоррелятор выполнен с возможностью создавать декоррелированный сигнал посредством декорреляции по меньшей мере одного канала входного сигнала процессора, при этом микшер микширует входной аудиосигнал процессора и декоррелированный сигнал на основе сигнала разности канальных уровней (CLD) и/или сигнала межканальной когерентности (ICC), так что выходной сигнал процессора состоит из двух некогерентных выходных каналов. Такие инструментальные средства декодирования с одним входом и выходом обеспечивают возможность простого создания выходного сигнала процессора с парой каналов, которые имеют корректную амплитуду и когерентность относительно друг друга.
В некоторых вариантах осуществления, устройство управления выполнено с возможностью отключать декоррелятор одного из процессоров посредством задания декоррелированного аудиосигнала равным нулю или посредством запрещения микшеру микшировать декоррелированный сигнал в выходной сигнал процессора соответствующего процессора. Оба способа обеспечивают возможность простого отключения декоррелятора.
В предпочтительных вариантах осуществления, базовый декодер представляет собой декодер как для музыки, так и для речи, к примеру, USAC-декодер, при этом входной сигнал процессора по меньшей мере для одного из процессоров содержит элементы канальных пар, к примеру, USAC-элементы канальных пар. В этом случае, можно опускать декодирование элементов канальных пар, если оно не требуется для текущей целевой компоновки громкоговорителей. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, базовый декодер представляет собой параметрический кодер объектов, к примеру, SAOC-декодер. Таким образом, могут дополнительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, число громкоговорителей эталонной компоновки громкоговорителей выше числа громкоговорителей целевой компоновки громкоговорителей. В этом случае, преобразователь форматов может понижать с микшированием выходной сигнал базового декодера в аудио в выходной аудиосигнал, при этом число выходных каналов меньше числа выходных каналов выходного сигнала базового декодера.
Здесь, понижающее микширование описывает случай, когда более высокое число громкоговорителей присутствует в эталонной компоновке громкоговорителей, чем используется в целевой компоновке громкоговорителей. В таких случаях, выходные каналы одного или более процессоров зачастую не требуются в форме некогерентных сигналов. Если декорреляторы таких процессоров отключаются, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, устройство управления выполнено с возможностью отключать декорреляторы по меньшей мере для одного первого из упомянутых выходных каналов выходного сигнала процессора и одного второго из упомянутых выходных каналов выходного сигнала процессора, если первый из упомянутых выходных каналов и второй из упомянутых выходных каналов, в зависимости от целевой компоновки громкоговорителей, микшируются в общий канал выходного аудиосигнала, при условии, что первый коэффициент масштабирования для микширования первого из упомянутых выходных каналов выходного сигнала процессора в общий канал превышает первое пороговое значение, и/или второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов выходного сигнала процессора в общий канал превышает второе пороговое значение.
В случае если первый из упомянутых выходных каналов и второй из упомянутых выходных каналов микшируются в общий канал выходного аудиосигнала, декорреляция в базовом декодере может опускаться для первого и второго выходного канала. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования. Таким образом, может исключаться необязательная декорреляция.
В усовершенствованном варианте осуществления первого коэффициента масштабирования для микширования первого из упомянутых выходных каналов, выходной сигнал процессора может предсказываться. Аналогичным образом, может использоваться второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов выходного сигнала процессора. В данном документе, коэффициент масштабирования является числовым значением, обычно между нулем и единицей, которое описывает отношение между интенсивностью сигнала в исходном канале (выходном канале выходного сигнала процессора) и интенсивностью сигнала результирующего сигнала в микшированном канале (общем канале выходного аудиосигнала). Коэффициенты масштабирования могут содержаться в матрице понижающего микширования. Посредством использования первого порогового значения для первого коэффициента масштабирования и/или посредством использования второго порогового значения для второго коэффициента масштабирования можно обеспечивать то, что декорреляция отключается только для первого выходного канала и второго выходного канала, если по меньшей мере определенная часть первого выходного канала и/или по меньшей мере определенная часть второго выходного канала микшируется в общий канал. В качестве примера, пороговое значение может задаваться равным нулю.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью принимать из преобразователя форматов набор правил, согласно которому преобразователь форматов микширует каналы выходного сигнала процессора в каналы выходного аудиосигнала в зависимости от целевой компоновки громкоговорителей, при этом устройство управления выполнено с возможностью управлять процессорами в зависимости от принимаемого набора правил. В данном документе, управление процессорами может включать в себя управление декорреляторами и/или микшерами. Посредством этого признака можно обеспечивать то, что устройство управления управляет процессорами точно.
Посредством набора правил, информация в отношении того, комбинированы или нет выходные каналы процессора посредством этапа последующего преобразования формата, может предоставляться в устройство управления. Правила, принятые посредством устройства управления, типично имеют форму матрицы понижающего микширования, задающей коэффициенты масштабирования для каждого выходного канала декодера в каждый выходной аудиоканал, используемый посредством преобразователя форматов. На следующем этапе, правила управления для управления декорреляторами могут вычисляться посредством устройства управления из правил понижающего микширования. Эти правила управления могут содержаться в так называемой матрице микширования, которая может формироваться посредством устройства управления в зависимости от целевой компоновки громкоговорителей. Эти правила управления после этого могут использоваться для того, чтобы управлять декорреляторами и/или микшерами. Как результат, устройство управления может быть адаптировано к различным целевым компоновкам громкоговорителей без вмешательства вручную.
В предпочтительных вариантах осуществления, устройство управления выполнено с возможностью управлять декорреляторами базового декодера таким образом, что число некогерентных каналов выходного сигнала базового декодера равно числу громкоговорителей целевой компоновки громкоговорителей. В этом случае, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В вариантах осуществления, преобразователь форматов содержит понижающий микшер для понижающего микширования выходного сигнала базового декодера. Понижающий микшер выполнен с возможностью непосредственно формировать выходной аудиосигнал. Тем не менее, в некоторых вариантах осуществления понижающий микшер может соединяться с другим элементом преобразователя форматов, который затем формирует выходной аудиосигнал.
В некоторых вариантах осуществления, преобразователь форматов содержит модуль бинаурального рендеринга. Модули бинаурального рендеринга, в общем, используются для того, чтобы преобразовывать многоканальный сигнал в стереосигнал, выполненный с возможностью использования со стереонаушниками. Модуль бинаурального рендеринга формирует бинауральное понижающее микширование сигнала, подаваемого в него, так что каждый канал этого сигнала представлен посредством виртуального источника звука. Обработка может осуществляться покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении и приводит к чрезвычайно высокой вычислительной сложности, которая коррелируется с числом некогерентных/некоррелированных каналов сигнала, подаваемого в модуль бинаурального рендеринга.
В предпочтительных вариантах осуществления, выходной сигнал базового декодера подается в модуль бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга. В этом случае, устройство управления обычно выполнено с возможностью управлять процессорами базового декодера таким образом, что число каналов выходного сигнала базового декодера больше в качестве числа громкоговорителей наушников. Это может требоваться, поскольку, например, модуль бинаурального рендеринга может использовать пространственную звуковую информацию, содержащуюся в каналах для регулирования частотных характеристик стереосигнала, подаваемого в наушники, чтобы формировать трехмерное аудиовпечатление.
В некоторых вариантах осуществления, выходной сигнал понижающего микшера для понижающего микшера подается в модуль бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга. В случае если выходной аудиосигнал понижающего микшера подается в модуль бинаурального рендеринга, число каналов его входного сигнала значительно меньше, чем в случаях, в которых выходной сигнал базового декодера подается в модуль бинаурального рендеринга, так что уменьшается вычислительная сложность.
Кроме того, предусмотрен способ для декодирования сжатого входного аудиосигнала, при этом способ содержит этапы: предоставления по меньшей мере одного базового декодера, имеющего один или более процессоров для формирования выходного сигнала процессора на основе входного сигнала процессора, при этом число выходных каналов выходного сигнала процессора выше числа входных каналов входного сигнала процессора, при этом каждый из одного или более процессоров содержит декоррелятор и микшер, при этом выходной сигнал базового декодера, имеющий множество каналов, содержит выходной сигнал процессора, и при этом выходной сигнал базового декодера является подходящим для эталонной компоновки громкоговорителей; предоставления по меньшей мере одного преобразователя форматов, выполненного с возможностью преобразовывать выходной сигнал базового декодера в выходной аудиосигнал, который является подходящим для целевой компоновки громкоговорителей; и предоставления устройства управления, выполненного с возможностью управлять по меньшей мере одним или более процессорами таким образом, что декоррелятор процессора может управляться независимо от микшера процессора, при этом устройство управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов одного или более процессоров в зависимости от целевой компоновки громкоговорителей.
Кроме того, предусмотрена компьютерная программа для реализации вышеуказанного способа при выполнении на компьютере или в процессоре сигналов.
Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:
Фиг. 1 показывает блок-схему предпочтительного варианта осуществления декодера согласно изобретению,
Фиг. 2 показывает блок-схему второго варианта осуществления декодера согласно изобретению,
Фиг. 3 показывает модель концептуального процессора, в которой декоррелятор включается,
Фиг. 4 показывает модель концептуального процессора, в которой декоррелятор отключается,
Фиг. 5 иллюстрирует взаимодействие между преобразованием формата и декодированием,
Фиг. 6 показывает подробную блок-схему варианта осуществления декодера согласно изобретению, в котором формируется 5.1-канальный сигнал,
Фиг. 7 показывает подробную блок-схему варианта осуществления по фиг. 6 декодера согласно изобретению, в котором 5.1-канал микширован с понижением в 2.0-канальный сигнал,
Фиг. 8 показывает подробную блок-схему варианта осуществления по фиг. 6 декодера согласно изобретению, в котором 5.1-канальный сигнал микширован с понижением в 4.0-канальный сигнал,
Фиг. 9 показывает подробную блок-схему варианта осуществления декодера согласно изобретению, в котором формируется 9.1-канальный сигнал,
Фиг. 10 показывает подробную блок-схему варианта осуществления по фиг. 9 декодера согласно изобретению, в котором 9.1-канальный сигнал микширован с понижением в 4.0-канальный сигнал,
Фиг. 11 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера,
Фиг. 12 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера, и
Фиг. 13 показывает принципиальную блок-схему концептуального общего представления преобразователя форматов.
Перед описанием вариантов осуществления настоящего изобретения, предоставляется дополнительная исходная информация относительно систем кодера и декодера предшествующего уровня техники.
Фиг. 11 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера 1, тогда как фиг. 12 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера 2.
Система 1, 2 трехмерных аудиокодеков может быть основана на кодере 3 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для кодирования сигналов 4 каналов и сигналов 5 объектов, а также на основе декодера 6 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для декодирования выходного аудиосигнала 7 кодера 3. Чтобы повышать эффективность для кодирования большого количества объектов 5, адаптирована технология пространственного кодирования аудиообъектов (SAOC). Три типа модулей 8, 9, 10 рендеринга выполняют задачи рендеринга объектов 11, 12 в каналы 13, рендеринга каналов 13 в наушники или рендеринга каналов в различную компоновку громкоговорителей.
Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных 14 объектов (OAM) сжимается и мультиплексируется в трехмерный поток 7 аудиобитов.
Модуль 15 предварительного рендеринга/микшер может быть необязательно использован для того, чтобы преобразовывать сцену 4, 5 ввода каналов и объектов в сцену 4, 16 каналов перед кодированием. Функционально он является идентичным модулю 15 рендеринга объектов/микшеру, описанному ниже.
Предварительный рендеринг объектов 5 обеспечивает детерминированную энтропию сигналов на входе кодера 3, который является по существу независимым от числа одновременно активных сигналов 5 объектов. При предварительном рендеринге объектов 5, не требуется передача метаданных 14 объектов.
Сигналы 5 дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер 3 выполнен с возможностью использовать. Весовые коэффициенты объектов 5 для каждого канала 16 получаются из ассоциированных метаданных 14 объектов.
Базовый кодек для сигналов 4 каналов громкоговорителя, сигналов 5 дискретных объектов, сигналов 14 понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов 16 может быть основан на MPEG-D USAC-технологии. Он обрабатывает кодирование множества сигналов 4, 5, 14 посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы 4 и объекты 5 преобразуются в USAC-канальные элементы, а именно, в элементы канальных пар (CPE), одноканальные элементы (SCE), улучшения низких частот (LFE), и соответствующая информация передается в декодер 6.
Все дополнительные рабочие данные, такие как SAOC-данные 17 или метаданные 14 объектов, могут проходить через дополнительные элементы и могут рассматриваться при управлении скоростью кодера 3.
Кодирование объектов 5 является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Следующие варианты кодирования объектов являются возможными:
- Предварительно подготовленные посредством рендеринга объекты 16: Сигналы 5 объектов предварительно подготавливаются посредством рендеринга и микшируются в сигналы 4 каналов, например, в 22.2-канальные сигналы 4, перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы 4.
- Формы сигналов дискретных объектов: Объекты 5 предоставляются в качестве монофонических форм сигнала в кодер 3. Кодер 3 использует одноканальные элементы (SCE), чтобы передавать объекты 5 в дополнение к сигналам 4 каналов. Декодированные объекты 18 подготавливаются посредством рендеринга и микшируются на стороне приемного устройства. Информация 19, 20 сжатых метаданных объектов передается в приемное устройство/модуль 21 рендеринга совместно.
- Формы 17 сигналов параметрических объектов: Свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров 22, 23. Понижающее микширование сигналов 17 объектов кодируется с помощью USAC. Параметрическая информация 22 передается совместно. Число каналов 17 понижающего микширования выбирается в зависимости от числа объектов 5 и полной скорости передачи данных. Информация 23 сжатых метаданных объектов передается в модуль 24 SAOC-рендеринга.
SAOC-кодер 25 и декодер 24 для сигналов 5 объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов 5 на основе меньшего числа передаваемых каналов 7 и дополнительных параметрических данных 22, 23, таких как разности уровней объектов (OLD), межобъектные корреляции (IOC) и значения усиления при понижающем микшировании (DMG). Дополнительные параметрические данные 22, 23 демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает кодирование очень эффективным.
SAOC-кодер 25 принимает в качестве ввода сигналы 5 объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию 22 (которая пакетирована в трехмерный поток 7 аудиобитов) и транспортные SAOC-каналы 17 (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 24 восстанавливает сигналы 5 объектов/каналов из декодированных транспортных SAOC-каналов 26 и параметрической информации 23 и формирует выходную аудиосцену 27 на основе схемы размещения для воспроизведения, информации 20 распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.
Для каждого объекта 5, ассоциированные метаданные 14 объектов, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством кодера 28 метаданных объектов посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 19 объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации 20, которая может декодироваться посредством OAM-декодера 29.
Модуль 21 рендеринга объектов использует сжатые метаданные 20 объектов для того, чтобы формировать формы 12 сигналов объектов согласно данному формату воспроизведения. Каждый объект 5 подготавливается посредством рендеринга в определенные выходные каналы 12 согласно своим метаданным 19, 20. Вывод этого блока 21 получается в результате суммы частичных результатов. Если декодируются как канальный контент 11, 30, так и дискретные/параметрические объекты 12, 27, канальные формы 11, 30 сигналов и формы 12, 27 сигналов подготовленных посредством рендеринга объектов микшируются перед выводом результирующих форм 13 сигналов (или перед их подачей в модуль 9, 10 постпроцессора, такой как модуль 9 бинаурального рендеринга или модуль 10 рендеринга громкоговорителей) посредством микшера 8.
Модуль 9 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала 13 таким образом, что каждый входной канал 13 представлен посредством виртуального источника звука. Обработка осуществляется покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.
Модуль 10 рендеринга громкоговорителей, подробнее показанный на фиг. 13, преобразует между конфигурацией 13 передаваемых каналов и требуемым форматом 31 воспроизведения. В силу этого далее он называется "преобразователем 10 форматов". Преобразователь 10 форматов выполняет преобразования в меньшие числа выходных каналов 31, т.е. он создает понижающие микширования посредством понижающего микшера 32. DMX-конфигуратор 33 автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных форматов 13 и выходных форматов 31 и применяет эти матрицы в процессе 32 понижающего микширования, при этом используются схема 34 размещения выходов микшера и схема 35 размещения для воспроизведения. Преобразователь 10 форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.
Фиг. 1 показывает блок-схему предпочтительного варианта осуществления декодера 2 согласно изобретению.
Устройство 2 аудиодекодера для декодирования сжатого входного аудиосигнала 38, 38' содержит по меньшей мере один базовый декодер 6, имеющий один или более процессоров 36, 36' для формирования выходного сигнала 37, 37' процессора на основе входного сигнала 38, 38' процессора, при этом число выходных каналов 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора выше числа входных каналов 38.1, 38.1' входного сигнала 38, 38' процессора, при этом каждый из одного или более процессоров 36, 36' содержит декоррелятор 39, 39' и микшер 40, 40', при этом выходной сигнал 13 базового декодера, имеющий множество каналов 13.1, 13.2, 13.3, 13.4, содержит выходной сигнал 37, 37' процессора, и при этом выходной сигнал 13 базового декодера является подходящим для эталонной компоновки 42 громкоговорителей.
Дополнительно, устройство 2 аудиодекодера содержит по меньшей мере одно средство 9, 10 преобразования форматов, выполненное с возможностью преобразовывать выходной сигнал 13 базового декодера в выходной аудиосигнал 31, который является подходящим для целевой компоновки 45 громкоговорителей.
Кроме того, устройство 2 аудиодекодера содержит устройство 46 управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами 36, 36' таким образом, что декоррелятор 39, 39' процессора 36, 36' может управляться независимо от микшера 40, 40' процессора 36, 36', при этом устройство 46 управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов 39, 39' одного или более процессоров 36, 36' в зависимости от целевой компоновки громкоговорителей.
Цель процессоров 36, 36' состоит в том, чтобы создавать выходной сигнал 37, 37' процессора, имеющий более высокое число некогерентных/некоррелированных каналов 37.1, 37.2, 37.1', 37.2, чем число входных каналов 38.1, 38.1' входного сигнала 38 процессора. Более конкретно, каждый из процессоров 36, 36' может формировать выходной сигнал 37 процессора с множеством некогерентных/некоррелированных выходных каналов 37.1, 37.2, 37.1', 37.2' причем корректные пространственные сигнальные метки из входного сигнала 38, 38' процессора имеют меньшее число входных каналов 38.1, 38.1'.
В варианте осуществления, показанном на фиг. 1, первый процессор 36 имеет два выходных канала 37.1, 37.2, которые формируются из входного моносигнала 38, и второй процессор 36' имеет два выходных канала 37.1', 37.2', которые формируются из входного моносигнала 38'.
Средство 9, 10 преобразования форматов может преобразовывать выходной сигнал 13 базового декодера таким образом, что он является подходящим для воспроизведения в компоновке 45 громкоговорителей, которая может отличаться от эталонной компоновки 42 громкоговорителей. Эта компоновка называется "целевой компоновкой 45 громкоговорителей".
В варианте осуществления по фиг. 1, эталонная компоновка 42 громкоговорителей содержит левый передний громкоговоритель (L), правый передний громкоговоритель (R), левый громкоговоритель (LS) объемного звучания и правый громкоговоритель (RS) объемного звучания. Дополнительно, целевая компоновка громкоговорителей 42 содержит левый передний громкоговоритель (L), правый передний громкоговоритель (R) и центральный громкоговоритель (CS) объемного звучания.
В случае если выходные каналы 37.1, 37.2, 37.1', 37.2' одного процессора 36, 36' не требуются для конкретной целевой компоновки 45 громкоговорителей посредством последующего средства 9, 10 преобразования форматов в некогерентной/некоррелированной форме, синтез корректной корреляции становится перцепционно нерелевантным. Следовательно, для этих процессоров 36, 36' декоррелятор 39, 39' может опускаться. Тем не менее, в общем, микшер 40, 40' остается полностью функционирующим, когда декоррелятор отключается. Как результат, выходные каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала процессора формируются, даже если декоррелятор 39, 39' отключается.
Следует отметить, что в этом случае каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора являются когерентными/коррелированными, но не идентичными. Это означает, что каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора могут дополнительно обрабатываться независимо друг от друга после процессора 36, 36', при этом, например, коэффициент интенсивности и/или другая пространственная информация может использоваться посредством средства 9, 10 преобразования форматов для того, чтобы задавать уровни каналов 31.1, 31.2, 31.3 выходного аудиосигнала 31.
Поскольку декорреляционная фильтрация требует значительной вычислительной сложности, полная рабочая нагрузка по декодированию может существенно уменьшаться посредством предложенного устройства 2 декодера.
Хотя декорреляторы 39, 39', в частности, их всечастотные фильтры спроектированы таким образом, чтобы оказывать минимальное влияние на субъективное качество звука, нельзя во всех случаях исключать, что вводятся слышимые артефакты, например, размывание переходных частей вследствие фазовых искажений или "звона" определенных частотных компонентов. Следовательно, может достигаться повышение качества аудиозвука, поскольку опущены побочные эффекты процесса обработки декоррелятора.
Следует отметить, что эта обработка должна применяться только для полос частот, в которых применяется декорреляция. Влияние на полосы частот, в которых используется остаточное кодирование, не оказывается.
В предпочтительных вариантах осуществления, устройство 46 управления выполнено с возможностью деактивировать по меньшей мере один или более процессоров 36, 36', так что входные каналы 38.1, 38.1' входного сигнала 38 процессора подаются в выходные каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора в необработанной форме. Посредством этого признака может уменьшаться число каналов, которые не являются идентичными. Это может быть преимущественным, если целевая компоновка 45 громкоговорителей содержит число громкоговорителей, которое является очень небольшим по сравнению с числом громкоговорителей эталонной компоновки 42 громкоговорителей.
В предпочтительных вариантах осуществления, базовый декодер 6 представляет собой декодер 6 как для музыки, так и для речи, к примеру, USAC-декодер 6, в котором входной сигнал 38, 38' процессора по меньшей мере для одного из процессоров содержит элементы канальных пар, к примеру, USAC-элементы канальных пар. В этом случае, можно опускать декодирование элементов канальных пар, если оно не требуется для текущей целевой компоновки 45 громкоговорителей. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, базовый декодер представляет собой параметрический кодер 24 объектов, к примеру, SAOC-декодер 24. Таким образом, могут дополнительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
В некоторых вариантах осуществления, число громкоговорителей эталонной компоновки 42 громкоговорителей выше числа громкоговорителей целевой компоновки 45 громкоговорителей. В этом случае, средство 9, 10 преобразования форматов может понижать с микшированием выходной сигнал 13 базового декодера в аудио в выходной аудиосигнал 31, при этом число выходных каналов 31.1, 31.2, 31.3 меньше числа выходных каналов 13.1, 13.2, 13.3, 13.4 выходного сигнала 13 базового декодера.
Здесь, понижающее микширование описывает случай, когда более высокое число громкоговорителей присутствует в эталонной компоновке 42 громкоговорителей, чем используется в целевой компоновке 45 громкоговорителей. В таких случаях, выходные каналы 37.1, 37.2, 37.1', 37.2' одного или более процессоров 36, 36' зачастую не требуются в форме некогерентных сигналов. На фиг. 1, существуют четыре выходных канала 13.1, 13.2, 13.3, 13.4 декодера выходного сигнала 13 базового декодера, но только три выходных канала 31.1, 31.2, 31.3 выходного аудиосигнала 31. Если декорреляторы 39, 39' таких процессоров 36, 36' отключаются, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
По причинам, поясненным ниже, выходные каналы 13.3 и 13.4 декодера на фиг. 1 не требуются в форме некогерентных сигналов. Следовательно, декоррелятор 39' отключается посредством устройства 46 управления, тогда как декоррелятор 39 и микшеры 40, 40' включаются.
В некоторых вариантах осуществления, устройство 46 управления выполнено с возможностью отключать декорреляторы 39' по меньшей мере для одного первого из упомянутых выходных каналов 37.1' выходного сигнала 37, 37' процессора и одного второго из упомянутых выходных каналов 37.2, 37.2' выходного сигнала 37, 37' процессора, если первый из упомянутых выходных каналов 37.1' и второй из упомянутых выходных каналов 37.2', в зависимости от целевой компоновки 45 громкоговорителей, микшируются в общий канал 31.3 выходного аудиосигнала 31, при условии, что первый коэффициент масштабирования для микширования первого из упомянутых выходных каналов 37.1' выходного сигнала 37' процессора в общий канал 31.3 превышает первое пороговое значение, и/или второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов 37.2' выходного сигнала 37' процессора в общий канал 31.3 превышает второе пороговое значение.
На фиг. 1, выходные каналы 13.3 и 13.4 декодера микшируются в общем канале 31.3 выходного аудиосигнала 31. Первый и второй коэффициент масштабирования могут составлять 0,7071. Поскольку первое и второе пороговое значение в этом варианте осуществления задаются равными нулю, их декоррелятор 39' отключается.
В случае если первый из упомянутых выходных каналов 37.1' и второй из упомянутых выходных каналов 37.2' микшируются в общий канал 31.3 выходного аудио signal31, декорреляция в базовом декодере 6 может опускаться для первого и второго выходного канала 37.1', 37.2'. Таким образом, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования. Таким образом, может исключаться необязательная декорреляция.
В усовершенствованном варианте осуществления первого коэффициента масштабирования для микширования первого из упомянутых выходных каналов 37.1', выходной сигнал 37' процессора может предсказываться. Аналогичным образом, может использоваться второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов 37.2' выходного сигнала 37' процессора. В данном документе, коэффициент масштабирования является числовым значением, обычно между нулем и единицей, которое описывает отношение между интенсивностью сигнала в исходном канале (выходном канале 37.1', 37.2' выходного сигнала 37' процессора) и интенсивностью сигнала результирующего сигнала в микшированном канале (общем канале 31.1 выходного аудиосигнала 31). Коэффициенты масштабирования могут содержаться в матрице понижающего микширования. Посредством использования первого порогового значения для первого коэффициента масштабирования и/или посредством использования второго порогового значения для второго коэффициента масштабирования можно обеспечивать то, что декорреляция отключается только для первого выходного канала 37.1' и второго выходного канала 37.2', если по меньшей мере определенная часть первого выходного канала 37.1' и/или по меньшей мере определенная часть второго выходного канала 37.2' микшируются в общий канал 31.3. В качестве примера, пороговые значения могут задаваться равными нулю.
В варианте осуществления по фиг. 1, выходные каналы 13.3 и 13.4 декодера микшируются в общем канале 31.3 выходного аудиосигнала 31. Первый и второй коэффициент масштабирования могут составлять 0,7071. Поскольку первое и второе пороговое значение в этом варианте осуществления задаются равными нулю, их декоррелятор 39' отключается.
В предпочтительных вариантах осуществления, устройство 46 управления выполнено с возможностью принимать из средства 9, 10 преобразования форматов набор 47 правил, согласно которому средство 9, 10 преобразования форматов замешивает каналы 37.1, 37.2, 37.1', 37.2' выходного сигнала 37, 37' процессора в каналы 31.1, 31.2, 31.3 выходного аудиосигнала 31 в зависимости от целевой компоновки 45 громкоговорителей, при этом устройство 46 управления выполнено с возможностью управлять процессорами 36, 36' в зависимости от принимаемого набора 47 правил. В данном документе, управление процессорами 36, 36' может включать в себя управление декорреляторами 39, 39' и/или микшерами 40, 40'. Посредством этого признака можно обеспечивать то, что устройство 46 управления управляет процессорами 36, 36' точно.
Посредством набора 47 правил, информация в отношении того, комбинированы или нет выходные каналы процессора 36, 36' посредством этапа последующего преобразования формата, может предоставляться в средство 9, 10 управления. Правила, принятые посредством устройства 46 управления, типично имеют форму матрицы понижающего микширования, задающей коэффициенты масштабирования для каждого выходного канала 13.1, 13.2, 13.3, 13.4 базового декодера в каждый выходной аудиоканал 31.1, 31.2, 31.3, используемый посредством средства 9, 10 преобразования форматов. На следующем этапе, правила управления для управления декорреляторами могут вычисляться посредством устройства управления из правил понижающего микширования. Эти правила управления могут содержаться в так называемой матрице микширования, которая может формироваться посредством устройства 46 управления в зависимости от целевой компоновки 45 громкоговорителей. Эти правила управления после этого могут использоваться для того, чтобы управлять декорреляторами 39, 39' и/или микшерами 40, 40'. Как результат, устройство 46 управления может быть адаптировано к различным целевым компоновкам 45 громкоговорителей без вмешательства вручную.
На фиг. 1, набор 47 правил может содержать информацию в отношении того, что выходные каналы 13.3 и 13.4 декодера микшируются в общем канале 31.3 выходного аудиосигнала 31. Это может осуществляться в варианте осуществления по фиг. 1, поскольку левый громкоговоритель объемного звучания и правый громкоговоритель объемного звучания эталонной компоновки 42 громкоговорителей заменены посредством центрального громкоговорителя объемного звучания в целевой компоновке 45 громкоговорителей.
В предпочтительных вариантах осуществления, устройство 46 управления выполнено с возможностью управлять декорреляторами 39, 39' базового декодера 6 таким образом, что число некогерентных каналов выходного сигнала 13 базового декодера равно числу громкоговорителей целевой компоновки 45 громкоговорителей. В этом случае, могут значительно уменьшаться вычислительная сложность и артефакты, возникающие в результате процесса декорреляции, а также процесса понижающего микширования.
Например, на фиг. 1 существуют три некогерентных канала, первый представляет собой выходной канал 13.1 декодера, второй представляет собой выходной канал 13.2 декодера, и третий представляет собой каждый из выходных каналов 13.3 и 13.4 декодера, поскольку выходные каналы 13.3 и 13.4 декодера являются когерентными вследствие опускания декоррелятора 39'.
В вариантах осуществления, к примеру, в варианте осуществления по фиг. 1, средство 9, 10 преобразования форматов содержит понижающий микшер 10 для понижающего микширования выходного сигнала 13 базового декодера. Понижающий микшер 10 может непосредственно формировать выходной аудиосигнал 31, как показано на фиг. 1. Тем не менее, в некоторых вариантах осуществления понижающий микшер 10 может соединяться с другим элементом преобразователя 10 форматов, к примеру, модулем 9 бинаурального рендеринга, который затем формирует выходной аудиосигнал 31.
Фиг. 2 показывает блок-схему второго варианта осуществления декодера согласно изобретению. Далее поясняются только отличия от первого варианта осуществления. На фиг. 2, преобразователь 9, 10 форматов содержит модуль 9 бинаурального рендеринга. Модули 9 бинаурального рендеринга, в общем, используются для того, чтобы преобразовывать многоканальный сигнал в стереосигнал, выполненный с возможностью использования со стереонаушниками. Модуль 9 бинаурального рендеринга формирует бинауральное понижающее микширование LB и RB многоканального сигнала, подаваемого в него, так что каждый канал этого сигнала представлен посредством виртуального источника звука. Многоканальный сигнал может иметь до 32 каналов или более. Тем не менее, на фиг. 2 для упрощения показан четырехканальный сигнал. Обработка может осуществляться покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении и приводит к чрезвычайно высокой вычислительной сложности, которая коррелируется с числом некогерентных/некоррелированных каналов сигнала, подаваемого в модуль 9 бинаурального рендеринга. Чтобы уменьшать вычислительную сложность по меньшей мере один из декорреляторов 39, 39' может отключаться.
В варианте осуществления по фиг. 2, выходной сигнал 13 базового декодера подается в модуль 9 бинаурального рендеринга в качестве входного сигнала 13 модуля бинаурального рендеринга. В этом случае, устройство 46 управления обычно выполнено с возможностью управлять процессорами базового декодера 6 таким образом, что число каналов 13.1, 13.2, 13.3, 13.4 выходного сигнала 13 базового декодера больше в качестве числа громкоговорителей наушников. Это может требоваться, например, поскольку модуль 9 бинаурального рендеринга может использовать пространственную звуковую информацию, содержащуюся в каналах для регулирования частотных характеристик стереосигнала, подаваемого в наушники, чтобы формировать трехмерное аудиовпечатление.
В не показанных вариантах осуществления, выходной сигнал понижающего микшера для понижающего микшера 10 подается в модуль 9 бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга. В случае если выходной аудиосигнал понижающего микшера 10 подается в модуль 9 бинаурального рендеринга, число каналов его входного сигнала значительно меньше, чем в случаях, в которых выходной сигнал 13 базового декодера подается в модуль 9 бинаурального рендеринга, так что уменьшается вычислительная сложность.
В преимущественных вариантах осуществления, процессор 36 представляет собой инструментальное средство 36 декодирования с одним входом и двумя выходами (OTT), как показано на фиг. 3 и на фиг. 4.
Как показано на фиг. 3, декоррелятор 39 выполнен с возможностью создавать декоррелированный сигнал 48 посредством декорреляции по меньшей мере одного канала 38.1 входного сигнала 38 процессора, при этом микшер 40 микширует входной аудиосигнал 48 процессора и декоррелированный сигнал 48 на основе сигнала 49 разности канальных уровней (CLD) и/или сигнала 50 межканальной когерентности (ICC), так что выходной сигнал 37 процессора состоит из двух некогерентных выходных каналов 37.1, 37.2.
Такое инструментальное средство 36 декодирования с одним входом и выходом обеспечивает возможность простого создания выходного сигнала 37 процессора с парой каналов 37.1, 37.2, которые имеют корректную амплитуду и когерентность относительно друг друга. Типично декоррелятор (декорреляционный фильтр) состоит из частотно-зависимой предварительной задержки, после которой предусмотрены всечастотные (IIR) секции.
В некоторых вариантах осуществления, устройство управления выполнено с возможностью отключать декоррелятор 39 одного из процессоров 36 посредством задания декоррелированного аудиосигнала 48 равным нулю или посредством запрещения микшеру микшировать декоррелированный сигнал 48 в выходной сигнал 37 процессора соответствующего процессора 36. Оба способа обеспечивают возможность простого отключения декоррелятора 39.
Некоторые варианты осуществления могут задаваться для многоканального декодера 2 на основе "ISO/IEC IS 23003-3 Unified speech and audio coding".
Для многоканального кодирования, USAC состоит из различных канальных элементов. Ниже приведен пример для 5.1-аудиоканалов.
Пример простых рабочих данных потока битов
numElements elemIdx usacElementType[elemIdx]
5.1-канальный выходной сигнал 4 1 ID_USAC_SCE
2 ID_USAC_CPE
3 ID_USAC_CPE
4 ID_USAC_LFE
Каждый стереоэлемент ID_USAC_CPE может быть выполнен с возможностью использовать стандарт объемного звучания MPEG для повышающего моно-в-стерео-микширования посредством OTT 36. Как проиллюстрировано ниже, каждый элемент формирует два выходных канала 37.1, 37.2 с корректными пространственными сигнальными метками посредством микширования входного моносигнала с выводом декоррелятора 39, в который подается этот входной моносигнал [2] [3].
Важный компоновочный блок представляет собой декоррелятор 39, который используется для того, чтобы синтезировать корректную когерентность/корреляцию выходных каналов 37.1, 37.2. Типично декорреляционные фильтры состоят из частотно-зависимой предварительной задержки, после которой предусмотрены всечастотные (IIR) секции.
В случае если выходные каналы 37.1, 37.2 одного OTT-блока 36 декодирования микшированы с понижением посредством этапа последующего преобразования формата, синтез корректной корреляции становится перцепционно нерелевантным. Следовательно, для этих блоков повышающего микширования декоррелятор 39 может опускаться. Это может осуществляться следующим образом.
Взаимодействие между преобразованием 9, 10 формата и декодированием может устанавливаться так, как показано на фиг. 5. Может формироваться информация в отношении того, микшированы с понижением или нет выходные каналы OTT-блока 36 декодирования посредством этапа 9, 10 последующего преобразования формата. Эта информация содержится в так называемой матрице микширования, которая формируется посредством модуля 46 матричного вычисления и передается в USAC-декодер 6. Информация, обработанная посредством модуля матричного вычисления, типично представляет собой матрицу понижающего микширования, предоставленную посредством модуля 9, 10 преобразования форматов.
Блок 9, 10 обработки преобразования форматов преобразует аудиоданные таким образом, что они являются подходящими для воспроизведения в компоновке 45 громкоговорителей, которая может отличаться от эталонной компоновки 42 громкоговорителей. Эта компоновка называется "целевой компоновкой 45 громкоговорителей".
Понижающее микширование описывает случай, когда меньшее число громкоговорителей, чем присутствует в эталонной компоновке 42 громкоговорителей, используется в целевой компоновке 45 громкоговорителей.
На фиг. 6, показан базовый декодер 6, который предоставляет выходной сигнал базового декодера, содержащий выходные каналы 13.1-13.6, подходящие для эталонной 5.1-компоновки 42 громкоговорителей, которая содержит канал L левого переднего громкоговорителя, канал R правого переднего громкоговорителя, канал LS левого громкоговорителя объемного звучания, канал RS правого громкоговорителя объемного звучания, канал C центрального переднего громкоговорителя и канал LFE громкоговорителя с улучшением низких частот. Выходные каналы 13.1 и 13.2 созданы посредством процессора 36 на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36, в качестве декоррелированных каналов 13.1 и 13.2, когда декоррелятор 39 процессора 36 включается.
Канал L левого переднего громкоговорителя, канал R правого переднего громкоговорителя, канал LS левого громкоговорителя объемного звучания, канал RS правого громкоговорителя объемного звучания и канал C центрального переднего громкоговорителя являются основными каналами, тогда как канал LFE громкоговорителя с улучшением низких частот является необязательным.
Аналогичным образом, выходные каналы 13.3 и 13.4 созданы посредством процессора 36' на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36', в качестве декоррелированных каналов 13.3 и 13.4, когда декоррелятор 39' процессора 36' включается.
Выходной канал 13.5 основан на одноканальных элементах (ID_USAC_SCE), тогда как выходной канал 13.6 основан на элементах ID_USAC_LFE улучшения низких частот.
В случае если доступно шесть подходящих громкоговорителей, выходной сигнал 13 базового декодера может использоваться для воспроизведения без понижающего микширования. Тем не менее, в случае если доступна только стереокомпоновка громкоговорителей, выходной сигнал 13 базового декодера может быть микширован с понижением.
Типично обработка понижающего микширования может описываться посредством матрицы понижающего микширования, которая задает коэффициенты масштабирования для каждого исходного канала в каждый целевой канал.
Например, ITU BS775 задает следующую матрицу понижающего микширования для понижающего микширования основных 5.1-каналов в стерео, которая преобразует каналы L, R, C, LS и RS в стереоканалы L' и R'.
Figure 00000001
Матрица понижающего микширования имеет размерность
Figure 00000002
, где
Figure 00000003
является числом исходных каналов, и
Figure 00000004
является числом целевых каналов.
Из матрицы
Figure 00000005
понижающего микширования, так называемая матрица
Figure 00000006
микширования логически выводится в блоке обработки модуля матричного вычисления, которая описывает то, какой из исходных каналов комбинируется. Она имеет размерность
Figure 00000007
.
Figure 00000008
Следует обратить внимание на то, что
Figure 00000006
является симметричной матрицей.
Для вышеприведенного примера понижающего микширования 5 каналов в стерео, матрица
Figure 00000006
микширования следующая:
Figure 00000009
Способ для получения матрицы микширования задается посредством следующего псевдокода:
M Mix =zero n x n Matrix
for i=1 to m
for j=1 to n
set_j=0
if M Dmx (i, j)>thr
set_j=1
end
for k=1 to n
set_k=0
if M Dmx (i, k)>thr
set_k=1
end
if set_j==1 and set_k==1
M Mix (j, k)=1
end
end
end
end
В качестве примера, пороговое значение
Figure 00000010
может задаваться равным нулю.
Каждый OTT-блок декодирования дает в результате два выходных канала, соответствующие номеру i и j канала. Если матрица
Figure 00000011
микширования равна единице, декорреляция отключается для этого блока декодирования.
Чтобы опускать декоррелятор 39, элементы
Figure 00000012
задаются равными нулю. Альтернативно, может опускаться тракт декорреляции, как проиллюстрировано ниже.
Это приводит к заданию равными нулю или опусканию элементов
Figure 00000013
и
Figure 00000014
матрицы
Figure 00000015
повышающего микширования, соответственно. (Для получения более подробной информации см. "6.5.3.2. Derivation of arbitrary matrix element" противопоставленного документа [2]).
В другом предпочтительном варианте осуществления, элементы
Figure 00000016
и
Figure 00000017
матрицы
Figure 00000015
повышающего микширования должны вычисляться посредством задания
Figure 00000018
.
Фиг. 7 иллюстрирует понижающее микширование основных каналов L, R, LS, LR и C в стереоканалы L' и R'. Поскольку каналы L и R, созданные посредством процессора 36, не микшируются в общем канале выходного аудиосигнала 31, декоррелятор 39 процессора 36 остается включенным. Аналогичным образом, декоррелятор 39' процессора 36' остается включенным, поскольку каналы LS и RS, созданные посредством процессора 36', не микшируются в общем канале выходного аудиосигнала 31. Канал LFE громкоговорителя с улучшением низких частот может использоваться необязательно.
Фиг. 8 иллюстрирует понижающее микширование эталонной 5.1-компоновки 42 громкоговорителей, показанной на фиг. 6, в целевую 4.0-компоновку 45 громкоговорителей. Поскольку каналы L и R, созданные посредством процессора 36, не микшируются в общем канале выходного аудиосигнала 31, декоррелятор 39 процессора 36 остается включенным. Тем не менее, каналы 13.3 (LS на фиг. 6) и 13.4 (RS на фиг. 6), созданные посредством процессора 36', микшируются в общем канале 31.3 выходного аудиосигнала 31, чтобы формировать канал CS центрального громкоговорителя объемного звучания. Следовательно, декоррелятор 39' процессора 36' отключается, так что канал 13.3 представляет собой канал CS' центрального громкоговорителя объемного звучания, и так что канал 13.4 представляет собой канал CS'' центрального громкоговорителя объемного звучания. За счет этого, формируется модифицированная эталонная компоновка 42' громкоговорителей. Следует отметить, что каналы CS' и CS'' являются коррелированными, но не идентичными.
Для полноты следует добавить, что каналы 13.5 (C) и 13.6 (LFE) микшируются в общем канале 31.4 выходного аудиосигнала 31, чтобы формировать канал C центрального переднего громкоговорителя.
На фиг. 9 показан базовый декодер 6, который предоставляет выходной сигнал 13 базового декодера, содержащий выходные каналы 13.1-13.10, подходящие для эталонной 9.1-компоновки 42 громкоговорителей, которая содержит канал L левого переднего громкоговорителя, канал LC левого переднего центрального громкоговорителя, канал LS левого громкоговорителя объемного звучания, левый вертикальный высотный задний канал LVR объемного звучания, канал R правого переднего громкоговорителя, канал RS правого громкоговорителя объемного звучания, канал RC правого переднего центрального громкоговорителя, канал RS правого громкоговорителя объемного звучания, левый вертикальный высотный задний канал RVR объемного звучания, канал C центрального переднего громкоговорителя и канал LFE громкоговорителя с улучшением низких частот.
Выходные каналы 13.1 и 13.2 созданы посредством процессора 36 на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36, в качестве декоррелированных каналов 13.1 и 13.2, когда декоррелятор 39 процессора 36 включается.
Аналогично, выходные каналы 13.3 и 13.4 созданы посредством процессора 36' на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36', в качестве декоррелированных каналов 13.3 и 13.4, когда декоррелятор 39' процессора 36' включается.
Дополнительно, выходные каналы 13.5 и 13.6 созданы посредством процессора 36'' на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36'', в качестве декоррелированных каналов 13.5 и 13.6, когда декоррелятор 39'' процессора 36'' включается.
Кроме того, выходные каналы 13.7 и 13.8 созданы посредством процессора 36''' на основе элементов (ID_USAC_CPE) канальных пар, которые подаются в процессор 36''', в качестве декоррелированных каналов 13.7 и 13.8, когда декоррелятор 39''' процессора 36''' включается.
Выходной канал 13,9 основан на одноканальных элементах (ID_USAC_SCE), тогда как выходной канал 13,10 основан на элементах ID_USAC_LFE улучшения низких частот.
Фиг. 10 иллюстрирует понижающее микширование эталонной 9.1-компоновки 42 громкоговорителей, показанной на фиг. 9, в целевую 5.1-компоновку 45 громкоговорителей. Поскольку каналы 13.1 и 13.2, созданные посредством процессора 36, микшируются в общем канале 31.1 выходного аудиосигнала 31, чтобы формировать канал L' левого переднего громкоговорителя, декоррелятор 39 процессора 36 отключается, так что канал 13.1 представляет собой канал L' левого переднего громкоговорителя, и так что канал 13.2 представляет собой канал L'' левого переднего громкоговорителя.
Дополнительно, каналы 13.3 и 13.4, созданные посредством процессора 36', микшируются в общем канале 31.2 выходного аудиосигнала 31, чтобы формировать канал LS левого громкоговорителя объемного звучания. Следовательно, декоррелятор 39' процессора 36' отключается, так что канал 13.3 представляет собой канал LS' левого громкоговорителя объемного звучания, и так что канал 13.4 представляет собой канал LS'' левого громкоговорителя объемного звучания.
Поскольку каналы 13.5 и 13.6, созданные посредством процессора 36'', микшируются в общем канале 31.3 выходного аудиосигнала 31, чтобы формировать канал L правого переднего громкоговорителя, декоррелятор 39'' процессора 36'' отключается, так что канал 13.5 представляет собой канал R' правого переднего громкоговорителя, и так что канал 13.2 представляет собой канал правого переднего громкоговорителя R''.
Кроме того, каналы 13.7 и 13.8, созданные посредством процессора 36''', микшируются в общем канале 31.4 выходного аудиосигнала 31, чтобы формировать канал RS правого громкоговорителя объемного звучания. Следовательно, декоррелятор 39''' процессора 36''' отключается, так что канал 13.7 представляет собой канал RS' правого громкоговорителя объемного звучания, и так что канал 13.8 представляет собой канал RS'' правого громкоговорителя объемного звучания.
За счет этого, формируется модифицированная эталонная компоновка 42' громкоговорителей, в которой число некогерентных каналов выходного сигнала 13 базового декодера равно числу каналов громкоговорителей целевой компоновки 45.
Следует отметить, что эта обработка должна применяться только для полос частот, в которых применяется декорреляция. Влияние на полосы частот, в которых используется остаточное кодирование, не оказывается.
Как упомянуто выше, изобретение является применимым для бинаурального рендеринга. Бинауральное воспроизведение типично осуществляется в наушниках и/или в мобильных устройствах. При этом могут существовать ограничения, которые ограничивают сложность декодера и рендеринга.
Может выполняться сокращение/опускание обработки декоррелятора. В случае если аудиосигнал в конечном счете обрабатывается для бинаурального воспроизведения, предлагается опускать или уменьшать декорреляцию вообще или некоторых OTT-блоков декодирования.
Это исключает артефакты из понижающего микширования аудиосигналов, которые декоррелированы в декодере.
Число декодированных выходных каналов для бинаурального рендеринга может уменьшаться. Помимо этого, чтобы опускать декорреляцию, может быть желательным декодировать в меньшее число некогерентных выходных каналов, что в таком случае приводит к меньшему числу некогерентных входных каналов для бинаурального рендеринга. Например, декодирование исходного 22.2-канального материала в 5.1- и бинауральный рендеринг только 5 каналов вместо 22, если декодирование осуществляется на мобильном устройстве.
Чтобы уменьшать общую сложность декодера, предлагается применять следующую обработку:
A) Задание целевой компоновки громкоговорителей с меньшим числом каналов, чем исходная конфигурация каналов. Число целевых каналов зависит от ограничений сложности и качества.
Чтобы достигать целевой компоновки громкоговорителей, существуют два варианта B1 и B2, которые также могут комбинироваться:
B1) Декодирование в меньшее число каналов, т.е. посредством пропуска полного блока OTT-обработки в декодере. Это требует информационного тракта из модуля бинаурального рендеринга в базовый (USAC)-декодер, чтобы управлять обработкой декодера.
B2) Применение этапа преобразования формата (т.е. понижающего микширования) из исходной конфигурации каналов громкоговорителей или конфигурации промежуточного канала в целевую компоновку громкоговорителей. Он может выполняться на этапе постобработки после базового (USAC)-декодера и не требует измененного процесса декодирования.
В завершение, выполняется этап C):
C) Выполнение бинаурального рендеринга меньшего числа каналов.
Применение для SAOC-декодирования
Способы, описанные выше, также могут применяться к обработке параметрического кодирования объектов (SAOC).
Может выполняться преобразование формата с сокращением/опусканием обработки декоррелятора. Если преобразование формата применяется после SAOC-декодирования, передается информация из преобразователя форматов в SAOC-декодер. С помощью этой информации, корреляция в SAOC-декодере управляется таким образом, чтобы уменьшать количество искусственно декоррелированных сигналов. Эта информация может представлять собой полную матрицу понижающего микширования или извлеченную информацию.
Дополнительно, может выполняться бинауральный рендеринг с сокращением/опусканием обработки декоррелятора. В случае параметрического кодирования объектов (SAOC), декорреляция применяется в процессе декодирования. Обработка декорреляции в SAOC-декодере должна опускаться или сокращаться, если после этого выполняется бинауральный рендеринг.
Кроме того, может выполняться бинауральный рендеринг с сокращенным числом каналов. Если бинауральное воспроизведение применяется после SAOC-декодирования, SAOC-декодер может быть выполнен с возможностью подготавливать посредством рендеринга в меньшее число каналов, с использованием матрицы понижающего микширования, которая составляется на основе информации из преобразователя форматов.
Поскольку декорреляционная фильтрация требует значительной вычислительной сложности, полная рабочая нагрузка по декодированию может существенно уменьшаться посредством предложенного способа.
Хотя всечастотные фильтры спроектированы таким образом, чтобы оказывать минимальное влияние на субъективное качество звука, нельзя во всех случаях исключать, что вводятся слышимые артефакты, например, размывание переходных частей вследствие фазовых искажений или "звона" определенных частотных компонентов. Следовательно, может достигаться повышение качества аудиозвука, поскольку опускаются побочные эффекты процесса декорреляционной фильтрации. Помимо этого, исключается демаскирование таких артефактов декоррелятора посредством последующего понижающего микширования, повышающего микширования или бинауральной обработки.
Дополнительно, пояснены способы для уменьшения сложности в случае бинаурального рендеринга в сочетании с базовым (USAC)-декодером или SAOC-декодером.
Относительно декодера и кодера и способов описанных вариантов осуществления, следует упомянуть следующее.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно-читаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Хотя это изобретение описано с точки зрения нескольких вариантов осуществления, могут иметь место изменения, перестановки и эквиваленты, которые попадают в пределы объема этого изобретения. Также следует отметить, что предусмотрено множество альтернативных способов реализации способов и структур настоящего изобретения. Следовательно, нижеприведенная прилагаемая формула изобретения должна интерпретироваться как включающая в себя все такие изменения, перестановки и эквиваленты, которые попадают в пределы действительной сущности и объема настоящего изобретения.
Источники информации
1. Surround Sound Explained – Part 5. Published in: Журнал Soundonsound, декабрь, 2001 г.
2. ISO/IEC IS 23003-1, MPEG audio technologies – Part 1: MPEG Surround.
3. ISO/IEC IS 23003-3, MPEG audio technologies – Part 3: Unified speech and audio coding.

Claims (22)

1. Устройство аудиодекодера для декодирования сжатого входного аудиосигнала, содержащее:
- по меньшей мере один базовый декодер (6, 24), имеющий один или более процессоров (36, 36') для формирования выходного сигнала (37) процессора на основе входного сигнала (38, 38') процессора, при этом число выходных каналов (37.1, 37.2, 37.1', 37.2') выходного сигнала (37, 37') процессора выше числа входных каналов (38.1, 38.1') входного сигнала (38, 38') процессора, при этом каждый из одного или более процессоров (36, 36') содержит декоррелятор (39, 39') и микшер (40, 40'), при этом выходной сигнал (13) базового декодера, имеющий множество каналов (13.1, 13.2, 13.3, 13.4), содержит выходной сигнал (37, 37') процессора, и при этом выходной сигнал (13) базового декодера является подходящим для эталонной компоновки (42) громкоговорителей;
- по меньшей мере одно средство (9, 10) преобразования форматов, выполненное с возможностью преобразовывать выходной сигнал (13) базового декодера в выходной аудиосигнал (31), который является подходящим для целевой компоновки (45) громкоговорителей; и
- устройство (46) управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами (36, 36') таким образом, что декоррелятор (39, 39') процессора (36, 36') может управляться независимо от микшера (40, 40') процессора (36, 36'), при этом устройство (46) управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов (39, 39') одного или более процессоров (36, 36') таким образом, что, в зависимости от целевой компоновки (45) громкоговорителей, микшер (40, 40') процессора (36, 36') является функционирующим, когда декоррелятор (39, 39') процессора (36, 36') отключается.
2. Устройство декодера по п. 1, в котором устройство (46) управления выполнено с возможностью деактивировать по меньшей мере один или более процессоров (36, 36'), так что входные каналы (38.1, 38.1') входного сигнала (38, 38') процессора подаются в выходные каналы (37.1, 37.2, 37.1', 37.2') выходного сигнала (37, 37') процессора в необработанной форме.
3. Устройство декодера по п. 1 или 2, в котором процессор (36, 36') представляет собой инструментальное средство декодирования с одним входом и двумя выходами, при этом декоррелятор (39, 39') выполнен с возможностью создавать декоррелированный сигнал (48) посредством декорреляции по меньшей мере одного из каналов (38.1, 38.1') входного сигнала (38, 38') процессора, при этом микшер (40, 40') микширует входной сигнал (38) процессора и декоррелированный сигнал (46) на основе сигнала (49) разности канальных уровней и/или сигнала (50) межканальной когерентности, так что выходной сигнал (37, 37') процессора состоит из двух некогерентных выходных каналов (37.1, 37.2, 37.1', 37.2').
4. Устройство декодера по п. 3, в котором устройство управления выполнено с возможностью отключать декоррелятор (36, 36') одного из процессоров (36, 36') посредством задания декоррелированного сигнала (48) равным нулю или посредством запрещения микшеру (40, 40') микшировать декоррелированный сигнал (46) в выходной сигнал (37) процессора соответствующего процессора (36, 36').
5. Устройство декодера по п. 1, в котором базовый декодер (6) представляет собой декодер как для музыки, так и для речи, к примеру USAC-декодер (6), при этом входной сигнал (38) процессора по меньшей мере для одного из процессоров (36, 36') содержит элементы канальных пар, к примеру USAC-элементы канальных пар.
6. Устройство декодера по п. 1, в котором базовый декодер (24) представляет собой параметрический кодер объектов, к примеру SAOC-декодер (24).
7. Устройство декодера по п. 1, в котором число громкоговорителей эталонной компоновки (42) громкоговорителей выше числа громкоговорителей целевой компоновки (45) громкоговорителей.
8. Устройство декодера по п. 1, в котором устройство (46) управления выполнено с возможностью отключать декорреляторы (36') по меньшей мере для одного первого из упомянутых выходных каналов (37.1') выходного сигнала (37') процессора и одного второго из упомянутых выходных каналов (37.2') выходного сигнала (37') процессора, если первый из упомянутых выходных каналов (37.1') и второй из упомянутых выходных каналов (37.2'), в зависимости от целевой компоновки громкоговорителей, микшируются в общий канал (31.2) выходного аудиосигнала (31) при условии, что первый коэффициент масштабирования для микширования первого из упомянутых выходных каналов (37.1') в общий канал (31.2) превышает первое пороговое значение и/или второй коэффициент масштабирования для микширования второго из упомянутых выходных каналов (37.2') в общий канал (31.2) превышает второе пороговое значение.
9. Устройство декодера по п. 1, в котором устройство (46) управления выполнено с возможностью принимать из средства (9, 10) преобразования форматов набор (47) правил, согласно которому средство (9, 10) преобразования форматов микширует каналы (13.1, 13.2, 13.3, 13.4) выходного сигнала (13) базового декодера в каналы (31.1, 31.2, 31.3) выходного аудиосигнала (31) в зависимости от целевой компоновки (45) громкоговорителей, при этом устройство (46) управления выполнено с возможностью управлять по меньшей мере одним из процессоров (36, 36') в зависимости от принимаемого набора (47) правил.
10. Устройство декодера по п. 1, в котором устройство (46) управления выполнено с возможностью управлять декорреляторами (39, 39') процессоров (36, 36') таким образом, что число некогерентных каналов выходного сигнала (13) базового декодера равно числу каналов (31.1, 31.2, 31.3) выходного аудиосигнала (31).
11. Устройство декодера по п. 1, в котором средство (9, 10) преобразования форматов содержит понижающий микшер (10) для понижающего микширования выходного сигнала (13) базового декодера.
12. Устройство декодера по п. 1, в котором средство (9, 10) преобразования форматов содержит модуль (10) бинаурального рендеринга.
13. Устройство декодера по п. 12, в котором выходной сигнал (13) базового декодера подается в модуль (9) бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга.
14. Устройство декодера по п. 11 и по одному из пп. 12, 13, в котором выходной сигнал понижающего микшера для понижающего микшера (9) подается в модуль (10) бинаурального рендеринга в качестве входного сигнала модуля бинаурального рендеринга.
15. Способ для декодирования сжатого входного аудиосигнала, при этом способ содержит этапы, на которых:
- предоставляют по меньшей мере один базовый декодер (6, 24), имеющий один или более процессоров (36, 36') для формирования выходного сигнала (37) процессора на основе входного сигнала (38) процессора, при этом число выходных каналов (37.1, 37.2, 37.1', 37.2') выходного сигнала (37, 37') процессора выше числа входных каналов (38.1, 38.1') входного сигнала (38, 38') процессора, при этом каждый из одного или более процессоров (36, 36') содержит декоррелятор (39, 39') и микшер (40, 40'), при этом выходной сигнал (13) базового декодера, имеющий множество каналов (13.1, 13.2, 13.3, 13.4), содержит выходной сигнал (37, 37') процессора, и при этом выходной сигнал (13) базового декодера является подходящим для эталонной компоновки (42) громкоговорителей;
- предоставляют по меньшей мере одно средство (9, 10) преобразования форматов, выполненное с возможностью преобразовывать выходной сигнал (13) базового декодера в выходной аудиосигнал (31), который является подходящим для целевой компоновки (45) громкоговорителей; и
- предоставляют устройство (46) управления, выполненное с возможностью управлять по меньшей мере одним или более процессорами (36, 36') таким образом, что декоррелятор (39, 39') процессора (36, 36') может управляться независимо от микшера (40, 40') процессора (36, 36'), при этом устройство (46) управления выполнено с возможностью управлять по меньшей мере одним из декорреляторов (39, 39') одного или более процессоров (36, 36') таким образом, что, в зависимости от целевой компоновки (45) громкоговорителей, микшер (40, 40') процессора (36, 36') является функционирующим, когда декоррелятор (39, 39') процессора (36, 36') отключается.
16. Машиночитаемый носитель, имеющий компьютерную программу для реализации способа по п. 15 при выполнении на компьютере или в процессоре сигналов.
RU2016105520A 2013-07-22 2014-07-14 Управляемое модулем рендеринга пространственное повышающее микширование RU2659497C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177368.1 2013-07-22
EP13177368 2013-07-22
EP13189285.3 2013-10-18
EP20130189285 EP2830336A3 (en) 2013-07-22 2013-10-18 Renderer controlled spatial upmix
PCT/EP2014/065037 WO2015010937A2 (en) 2013-07-22 2014-07-14 Renderer controlled spatial upmix

Publications (2)

Publication Number Publication Date
RU2016105520A RU2016105520A (ru) 2017-08-29
RU2659497C2 true RU2659497C2 (ru) 2018-07-02

Family

ID=48874136

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016105520A RU2659497C2 (ru) 2013-07-22 2014-07-14 Управляемое модулем рендеринга пространственное повышающее микширование

Country Status (17)

Country Link
US (4) US10085104B2 (ru)
EP (2) EP2830336A3 (ru)
JP (1) JP6134867B2 (ru)
KR (1) KR101795324B1 (ru)
CN (2) CN105580391B (ru)
AR (1) AR096987A1 (ru)
AU (1) AU2014295285B2 (ru)
BR (1) BR112016001246B1 (ru)
CA (1) CA2918641C (ru)
ES (1) ES2734378T3 (ru)
MX (1) MX359379B (ru)
PL (1) PL3025521T3 (ru)
PT (1) PT3025521T (ru)
RU (1) RU2659497C2 (ru)
SG (1) SG11201600459VA (ru)
TW (1) TWI541796B (ru)
WO (1) WO2015010937A2 (ru)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI543642B (zh) * 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
WO2015036350A1 (en) * 2013-09-12 2015-03-19 Dolby International Ab Audio decoding system and audio encoding system
EP3611727B1 (en) 2015-03-03 2022-05-04 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
EP3285257A4 (en) 2015-06-17 2018-03-07 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US10607622B2 (en) * 2015-06-17 2020-03-31 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
WO2017165968A1 (en) * 2016-03-29 2017-10-05 Rising Sun Productions Limited A system and method for creating three-dimensional binaural audio from stereo, mono and multichannel sound sources
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
KR102392804B1 (ko) * 2017-07-28 2022-04-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인코딩된 다채널 신호를 광대역 필터에 의해 생성된 충전 신호를 사용하여 인코딩 또는 디코딩하는 장치
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN114822564A (zh) * 2021-01-21 2022-07-29 华为技术有限公司 音频对象的比特分配方法和装置
WO2022258876A1 (en) * 2021-06-10 2022-12-15 Nokia Technologies Oy Parametric spatial audio rendering

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050232445A1 (en) * 1998-04-14 2005-10-20 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
WO2008049587A1 (en) * 2006-10-24 2008-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US20100094631A1 (en) * 2007-04-26 2010-04-15 Jonas Engdegard Apparatus and method for synthesizing an output signal
US20100284549A1 (en) * 2008-01-01 2010-11-11 Hyen-O Oh method and an apparatus for processing an audio signal
WO2011151771A1 (en) * 2010-06-02 2011-12-08 Koninklijke Philips Electronics N.V. System and method for sound processing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
WO2007110103A1 (en) * 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
ATE538604T1 (de) 2006-03-28 2012-01-15 Ericsson Telefon Ab L M Verfahren und anordnung für einen decoder für mehrkanal-surroundton
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
JP5864892B2 (ja) 2010-06-02 2016-02-17 キヤノン株式会社 X線導波路
JP5998467B2 (ja) * 2011-12-14 2016-09-28 富士通株式会社 復号装置、復号方法、及び復号プログラム
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050232445A1 (en) * 1998-04-14 2005-10-20 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
WO2008049587A1 (en) * 2006-10-24 2008-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
EP2500900A1 (en) * 2006-10-24 2012-09-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for deriving a multi-channel audio signal from an audio signal
US20100094631A1 (en) * 2007-04-26 2010-04-15 Jonas Engdegard Apparatus and method for synthesizing an output signal
US20100284549A1 (en) * 2008-01-01 2010-11-11 Hyen-O Oh method and an apparatus for processing an audio signal
EP2225894B1 (en) * 2008-01-01 2012-10-31 LG Electronics Inc. A method and an apparatus for processing an audio signal
WO2011151771A1 (en) * 2010-06-02 2011-12-08 Koninklijke Philips Electronics N.V. System and method for sound processing

Also Published As

Publication number Publication date
CN110234060A (zh) 2019-09-13
US11184728B2 (en) 2021-11-23
CA2918641C (en) 2020-10-27
AU2014295285A1 (en) 2016-03-10
CN110234060B (zh) 2021-09-28
CN105580391A (zh) 2016-05-11
EP3025521B1 (en) 2019-05-01
PT3025521T (pt) 2019-08-05
CN105580391B (zh) 2019-04-12
WO2015010937A2 (en) 2015-01-29
KR20160033734A (ko) 2016-03-28
EP3025521A2 (en) 2016-06-01
PL3025521T3 (pl) 2019-10-31
RU2016105520A (ru) 2017-08-29
MX359379B (es) 2018-09-25
KR101795324B1 (ko) 2017-12-01
BR112016001246B1 (pt) 2022-03-15
TWI541796B (zh) 2016-07-11
ES2734378T3 (es) 2019-12-05
AR096987A1 (es) 2016-02-10
US10085104B2 (en) 2018-09-25
JP6134867B2 (ja) 2017-05-31
US20190281401A1 (en) 2019-09-12
SG11201600459VA (en) 2016-02-26
US11743668B2 (en) 2023-08-29
BR112016001246A2 (ru) 2017-07-25
AU2014295285B2 (en) 2017-09-07
EP2830336A2 (en) 2015-01-28
US20160157040A1 (en) 2016-06-02
US20180124541A1 (en) 2018-05-03
JP2016527804A (ja) 2016-09-08
EP2830336A3 (en) 2015-03-04
CA2918641A1 (en) 2015-01-29
US20220070603A1 (en) 2022-03-03
US10341801B2 (en) 2019-07-02
WO2015010937A3 (en) 2015-03-19
MX2016000916A (es) 2016-05-05
TW201517021A (zh) 2015-05-01

Similar Documents

Publication Publication Date Title
RU2659497C2 (ru) Управляемое модулем рендеринга пространственное повышающее микширование
US20220101867A1 (en) Concept for audio encoding and decoding for audio channels and audio objects
US9966080B2 (en) Audio object encoding and decoding
RU2660638C2 (ru) Устройство и способ для улучшенного пространственного кодирования аудиообъектов
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
KR101218777B1 (ko) 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
KR20100086003A (ko) 오디오 신호 처리 방법 및 장치
CN107077861B (zh) 音频编码器和解码器
JP2024503186A (ja) マルチチャネル・コーデックにおける空間ノイズ充填