RU2725602C2 - Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa - Google Patents

Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa Download PDF

Info

Publication number
RU2725602C2
RU2725602C2 RU2016151121A RU2016151121A RU2725602C2 RU 2725602 C2 RU2725602 C2 RU 2725602C2 RU 2016151121 A RU2016151121 A RU 2016151121A RU 2016151121 A RU2016151121 A RU 2016151121A RU 2725602 C2 RU2725602 C2 RU 2725602C2
Authority
RU
Russia
Prior art keywords
hoa
representation
signals
max
sequences
Prior art date
Application number
RU2016151121A
Other languages
English (en)
Other versions
RU2725602C9 (ru
RU2016151121A3 (ru
RU2016151121A (ru
Inventor
Свен КОРДОН
Александр КРЮГЕР
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51178839&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2725602(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of RU2016151121A publication Critical patent/RU2016151121A/ru
Publication of RU2016151121A3 publication Critical patent/RU2016151121A3/ru
Publication of RU2725602C2 publication Critical patent/RU2725602C2/ru
Application granted granted Critical
Publication of RU2725602C9 publication Critical patent/RU2725602C9/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к средствам для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления. Технический результат заключается в повышении точности определения требуемого числа битов. Каждый сигнал канала в каждом кадре содержит группу значений выборки. Каждому сигналу канала каждого из кадров данных HOA присваивают дифференцируемое значение коэффициента усиления. При этом дифференцируемое значение коэффициента усиления вызывает изменение амплитуд первых значений выборки сигнала канала в текущем кадре ((k-2)) данных HOA по отношению ко вторым значениям выборки сигнала канала в предыдущем кадре ((k-3)) данных HOA. При этом результирующие сигналы каналов с адаптированным коэффициентом усиления кодируют в кодирующем устройстве. При этом представление кадра данных HOA выполняют в пространственной области для O сигналов w(t) виртуальных громкоговорителей, при этом положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере. 4 н. и 14 з.п. ф-лы, 6 ил.

Description

Область техники
Настоящее изобретение относится к способу и устройству определения для сжатия представления кадра данных HOA наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, связанных с сигналами каналов конкретного одного из указанных кадров данных HOA.
Уровень техники
Технология звукозаписи, создающей «эффект присутствия», (Ambisonics) высшего порядка, обозначаемая HOA (Higher Order Ambisonics) предлагает одну из возможностей представления стереозвука. Другими методами являются синтез волнового поля (wave field synthesis, WFS) или подходы на базе канала, такие как 22.2. В отличие от методов на базе каналов, представление на основе HOA предлагает преимущество, состоящее в отсутствии зависимости от конкретной установки громкоговорителя. Однако такая гибкость существует за счет процесса декодирования, который необходим для воспроизведения представления HOA на конкретной установке громкоговорителя. По сравнению с подходом WFS, в котором число требуемых громкоговорителей обычно очень велико, технология HOA также может быть воспроизведена в установках, состоящих всего из нескольких громкоговорителей. Дополнительным преимуществом HOA является то, что то же самое представление также может быть использовано без каких-либо изменений для стереофонического воспроизведения в наушниках.
Технология HOA основана на представлении пространственной плотности комплексных амплитуд гармонической плоской волны с помощью усеченного разложения по сферическим гармоникам (Spherical Harmonics, SH). Каждый коэффициент разложения является функцией угловой частоты, которая может быть эквивалентно представлена с помощью функции временной области. Следовательно, без потери общности, полное представление звукового поля HOA действительно можно считать состоящим из O функций временной области, где O обозначает число коэффициентов разложения. Данные функции временной области в дальнейшем будут эквивалентно упоминаться как последовательности коэффициентов HOA или как каналы HOA.
Пространственное разрешение представления HOA улучшается с ростом максимального порядка N разложения. К сожалению, число коэффициентов разложения O растет квадратично с порядком N, в частности, O = (N + 1)2. Например, типичные представления HOA, использующие порядок N = 4, требуют коэффициентов (расширения) HOA O = 25. Общая скорость передачи битов для передачи представления HOA, учитывая желаемую одноканальную частоту дискретизации fs и число битов Nb в выборке, определяется как O · fS · Nb. Передача представления HOA с порядком N = 4 с частотой дискретизации fs = 48 кГц, с использованием Nb = 16 бит в выборке приводит к скорости передачи битов 19,2 Мбит/с, которая является очень высокой для многих практических применений, например, потоковой передачи данных. Таким образом, сжатие представления HOA является весьма желательным.
Ранее сжатие представлений звукового поля HOA предлагалось в документах EP 2665208 A1, EP 2743922 A1, EP 2800401 A1, см. ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, январь 2014 г. Эти подходы объединяет то, что они выполняют анализ звукового поля и разлагают данное представление HOA на компонент направления и остаточный компонент окружающей среды. Конечное сжатое представление, с одной стороны, как предполагается, состоит из ряда квантованных сигналов, являющихся результатом перцепционного кодирования направленных и векторных сигналов, а также релевантных последовательностей коэффициентов компонента окружающей среды HOA. С другой стороны, оно содержит дополнительную побочную информацию, относящуюся к квантованным сигналам, причем данная побочная информация требуется для восстановления представления HOA из его сжатого варианта.
Перед передачей к перцепционному кодеру эти промежуточные сигналы временной области должны иметь максимальную амплитуду в пределах диапазона значений [-1,1[, что является требованием, возникающим в связи с реализацией имеющихся в настоящее время перцепционных кодеров. Чтобы удовлетворять данному требованию при сжатии представлений HOA, блок обработки регулятора усиления (см. EP 2824661 A1 и вышеупомянутый документ ISO/IEC JTC1/SC29/WG11 N14264) используют перед перцепционными кодерами, которые плавно ослабляют или усиливают входные сигналы. Предполагается, что полученное изменение сигнала является обратимым и применяется по кадрам, при этом, в частности, изменение амплитуд сигнала между последовательными кадрами предполагается равным степени «2». Для облегчения обратного преобразования данного изменения сигнала в декомпрессоре на основе HOA соответствующая нормализация побочной информации включается в общую побочную информацию. Данная нормализация побочной информации может состоять из показателей по основанию «2», причем показатели описывают относительное изменение амплитуды между двумя последовательными кадрами. Эти показатели кодируются, используя кодирование длины серий согласно вышеупомянутому документу ISO/IEC JTC1/ SC29/WG11 N14264, так как незначительные изменения амплитуды между последовательными кадрами более вероятны, чем большие изменения.
Раскрытие сущности изобретения
Использование дифференцированно кодированных изменений амплитуды для восстановления исходных амплитуд сигнала в декомпрессии HOA возможно, например, в случае, когда одиночный файл распаковывается от начала до конца без каких-либо временных скачков. Однако для облегчения произвольного доступа в кодированном представлении должны присутствовать независимые блоки доступа (которые обычно представляют собой поток битов), чтобы обеспечивать начало декомпрессии с требуемого положения (или по меньшей мере в непосредственной близости от него), независимо от информации из предыдущих кадров. Такой независимый блок доступа должен содержать полное абсолютное изменение амплитуды (т. е. недифференцируемое значение коэффициента усиления), вызванное блоком обработки регулятора усиления от первого кадра до текущего кадра. Предполагая, что изменения амплитуды между двумя последовательными кадрами являются степенью «2», это является достаточным, чтобы описать полное абсолютное изменение амплитуды с помощью показателя по основанию «2». Для эффективного кодирования данного показателя важно знать возможные максимальные коэффициенты усиления сигналов перед применением блока обработки регулятора усиления. Однако эти сведения в значительной степени зависят от спецификации ограничений на диапазон значений представлений HOA, подлежащих сжатию. К сожалению, документ касательно MPEG-H 3D аудио стандарта ISO/IEC JTC1/SC29/WG11 N14264 только представляет описание формата для ввода представления HOA, без установления каких-либо ограничений на диапазон значений.
Проблема, решаемая с помощью изобретения, заключается в обеспечении наименьшего целого числа бит, необходимого для представления недифференцируемых значений коэффициентов усиления. Данную проблему решают с помощью способа, раскрытого в пункте 1 формулы изобретения. Устройство, которое использует данный способ, раскрыто в пункте 2 формулы изобретения.
Преимущества дополнительных вариантов осуществления раскрыты в соответствующих зависимых пунктах формулы изобретения.
Изобретение устанавливает взаимосвязь между диапазоном значений входного представления HOA и возможными максимальными коэффициентами усиления сигналов перед применением блока обработки регулятора усиления в компрессоре на основе HOA.
На основе взаимосвязи определяется количество требуемых битов (для данной спецификации в диапазоне значений входного представления HOA) для эффективного кодирования показателей по основанию «2» для описания в пределах блока доступа полных абсолютных изменений амплитуды (т. е. недифференцируемого значения коэффициента усиления) измененных сигналов, вызванных блоком обработки регулятора усиления от первого кадра до текущего кадра.
Кроме того, после того как правило для вычисления количества требуемых битов для кодирования показателя выполнено, изобретение использует обработку для проверки того, удовлетворяет ли данное представление HOA требуемым ограничениям диапазона значений, так чтобы оно могло быть сжато должным образом.
В принципе, способ согласно изобретению подходит для определения сжатия представления кадра данных HOA наименьшего целого числа βe битов, требуемого для представления недифференцируемых значений коэффициентов усиления для сигналов каналов конкретного одного из указанных кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки, и в котором каждому сигналу канала каждого одного из указанных кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, и такое дифференцируемое значение коэффициента усиления вызывает изменение амплитуд значений выборки сигнала канала в текущем кадре данных HOA относительно значений выборки этого сигнала канала в предыдущем кадре данных HOA, и при этом такие сигналы каналов с адаптированным коэффициентом усиления кодируются в кодирующем устройстве,
и при этом указанное представление кадра данных HOA воспроизведено в пространственной области для O сигналов виртуальных громкоговорителей wj(t), где положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, причем указанное воспроизведение представлено произведением матриц w(t) = (Ψ)-1 • c(t), где w(t) – вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ – модовая матрица положений виртуальных громкоговорителей, и c(t) – вектор соответствующих последовательностей коэффициентов HOA указанного представления кадра данных HOA,
и при этом указанное представление кадра данных HOA было нормализовано, так что | | w ( t ) | | = max 1 j O | w j ( t ) | 1 t
Figure 00000001
,
указанный способ включает в себя этапы:
- формирование указанных сигналов каналов на одном или более подэтапов a), b), c) из указанного нормализованного представления кадра данных HOA:
a) для представления доминирующих звуковых сигналов в указанных сигналах каналов, умножение указанного вектора последовательностей коэффициентов HOA c(t) на матрицу смешивания Α, при этом евклидова норма матрицы смешивания Α не больше, чем «1», причем матрица смешивания Α представляет линейную комбинацию последовательностей коэффициентов указанного нормализованного представления кадра данных HOA;
b) для представления компонента окружающей среды cAMB(t) в указанных сигналах каналов, вычитание указанных доминирующих звуковых сигналов из указанного нормализованного представления кадра данных HOA, и выбор по меньшей мере части из последовательностей коэффициентов указанного компонента окружающей среды cAMB(t), причем ||cAMB(t)||2 2 ≤ ||c(t)||2 2, и преобразование результирующего минимального компонента окружающей среды cAMB,MIN(t) путем вычисления wMIN(t) = Ψ-1 MIN ⋅ cAMB,MIN(t), где
||Ψ-1 MIN||2 < 1 и ΨMIN – модовая матрица для указанного минимального компонента окружающей среды cAMB,MIN(t);
c) выбор части указанных последовательностей коэффициентов HOA c(t), причем выбранные последовательности коэффициентов связаны с последовательностями коэффициентов компонента окружающей среды HOA, к которым применено пространственное преобразование, и минимальный порядок NMIN, описывающий число указанных выбранных последовательностей коэффициентов, равен NMIN ≤ 9;
- установление указанного наименьшего целого числа βe битов, требуемого для представления указанных недифференцируемых значений коэффициентов усиления для указанных сигналов каналов до
Figure 00000002
,
где
Figure 00000003
, N – порядок, NMAX – максимальный порядок, представляющий интерес, Ω 1 ( N ) , , Ω O ( N )
Figure 00000004
направления указанных виртуальных громкоговорителей, O = (N + l)2 – число последовательностей коэффициентов HOA, и K – отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
По существу, устройство согласно изобретению подходит для определения при сжатии представления кадра данных HOA наименьшего целого числа βe битов, требуемого для представления недифференцируемых значений коэффициентов усиления для сигналов каналов конкретного одного из указанных кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки, и в котором каждому сигналу канала каждого одного из указанных кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, и такое дифференцируемое значение коэффициента усиления вызывает изменение амплитуд значений выборки сигнала канала в текущем кадре данных HOA относительно значений выборки этого сигнала канала в предыдущем кадре данных HOA, и при этом такие сигналы каналов с адаптированным коэффициентом усиления кодируются в кодирующем устройстве,
и при этом указанное представление кадра данных HOA воспроизведено в пространственной области для O сигналов виртуальных громкоговорителей wj(t), где положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, причем указанное воспроизведение представлено произведением матриц w(t) = (Ψ)-1 • c(t), где w(t) – вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ – модовая матрица положений виртуальных громкоговорителей, и c(t) – вектор соответствующих последовательностей коэффициентов HOA указанного представления кадра данных HOA,
и при этом указанное представление кадра данных HOA было нормализовано, так что | | w ( t ) | | = max 1 j O | w j ( t ) | 1 t
Figure 00000005
,
указанное устройство включает в себя:
- средства, которые формируют указанные сигналы каналов за одну или более операций a), b), c) из указанного нормализованного представления кадра данных HOA:
a) для представления доминирующих звуковых сигналов в указанных сигналах каналов, умножение указанного вектора последовательностей коэффициентов HOA c(t) на матрицу смешивания Α, при этом евклидова норма матрицы смешивания Α не больше, чем «1», причем матрица смешивания Α представляет линейную комбинацию последовательностей коэффициентов указанного нормализованного представления кадра данных HOA;
b) для представления компонента окружающей среды cAMB(t) в указанных сигналах каналов, вычитание указанных доминирующих звуковых сигналов из указанного нормализованного представления кадра данных HOA, и выбор по меньшей мере части из последовательностей коэффициентов указанного компонента окружающей среды cAMB(t), причем ||cAMB(t)||2 2 ≤ ||c(t)||2 2, и преобразование результирующего минимального компонента окружающей среды cAMB,MIN(t) путем вычисления wMIN(t) = Ψ-1 MIN · cAMB,MIN(t), где
||Ψ-1 MIN||2 < 1, и ΨMIN – модовая матрица для указанного минимального компонента окружающей среды cAMB,MIN(t);
c) выбор части указанных последовательностей коэффициентов HOA c(t), причем выбранные последовательности коэффициентов связаны с последовательностями коэффициентов компонента окружающей среды HOA, к которым применено пространственное преобразование, и минимальный порядок NMIN, описывающий число указанных выбранных последовательностей коэффициентов, равен NMIN ≤ 9;
- средства, которые задают указанное наименьшее целое число βe битов, требуемое для представления указанных недифференцируемых коэффициентов усиления для указанных сигналов каналов β e = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000006
,
где
Figure 00000007
, N – порядок, NMAX – максимальный порядок, представляющий интерес, Ω 1 ( N ) , , Ω O ( N )
Figure 00000004
– направления указанных виртуальных громкоговорителей, O = (N + 1)2 – число последовательностей коэффициентов HOA, и K – отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
Краткое описание чертежей
Примеры вариантов осуществления изобретения описаны со ссылками на прилагаемые чертежи, на которых показаны:
на фиг. 1 приведен компрессор на основе HOA;
на фиг. 2 приведен декомпрессор на основе HOA;
на фиг. 3 приведены значения масштабных коэффициентов K для виртуальных направлений Ωj(N), 1 ≤ j ≤ O, для порядков HOA N = 1, ... ,29;
на фиг. 4 приведены евклидовы нормы обратных модовых матриц Ψ-1 для виртуальных направлений ΩMIN,d, d = 1, ... , OMIN для порядков HOA NMIN = 1, ... ,9;
на фиг. 5 приведено определение максимально допустимых амплитуд γdB сигналов виртуальных громкоговорителей в положениях Ωj(N), 1 ≤ j < O, где O = (N + 1)2;
на фиг. 6 приведена сферическая система координат.
Описание вариантов осуществления
Даже если явно не описано, следующие варианты осуществления могут быть использованы в любой комбинации или субкомбинации.
В дальнейшем представлен принцип сжатия и декомпрессии HOA, чтобы представить более подробный контекст, в котором возникает вышеупомянутая проблема. Основой для данного представления является обработка, описанная в документе касательно MPEG-H 3D аудио стандарта ISO/IEC JTC1/SC29/WG11 N14264, см. также EP 2665208 A1, EP 2800401 A1 и EP 2743922 A1. В документе N14264 выражение «компонент направления» распространяется на «доминирующий звуковой компонент». Что касается компонента направления, предполагается, что доминирующий звуковой компонент частично представлен направленными сигналами, что означает монофонические сигналы c соответствующим направлением, из которого, как предполагается, они воздействуют на слушателя, вместе с некоторыми расчетными параметрами для расчета частей исходного представления HOA из направленных сигналов. Кроме того, предполагается, что доминирующий звуковой компонент представлен «векторными сигналами», что означает монофонические сигналы с соответствующим вектором, который определяет распределение по направлениям векторных сигналов.
Сжатие HOA
Общая архитектура компрессора на основе HOA, описанная в документе EP 2800401 A1, показана на фиг. 1. Он имеет часть пространственного кодирования HOA, изображенную на фиг. 1A, и часть перцепционного кодирования и часть кодирования источника, изображенную на фиг. 1B. Пространственный кодер HOA создает первое сжатое представление HOA, состоящее из I сигналов, вместе с побочной информацией, описывающей то, каким образом создать их представление HOA. В кодерах источника перцепционной и побочной информации I сигналов являются перцепционно кодированными, и побочная информация подвергается кодированию источника перед мультиплексированием двух кодированных представлений.
Пространственное кодирование HOA
На первом этапе текущий k-й кадр C(k) исходного представления HOA вводят на этапе или стадии 11 оценочной обработки направления и вектора, который предполагает создание наборов последовательностей MDIR(k) и MVEC(k). Набор последовательностей MDIR(k) состоит из последовательностей, первый элемент которых обозначает индекс направленного сигнала, а второй элемент обозначает соответствующее квантованное направление. Набор последовательностей MVEC(k) состоит из последовательностей, первый элемент которых обозначает индекс векторного сигнала, а второй элемент обозначает вектор, определяющий распределение по направлениям сигналов, т. е. то, каким образом вычисляется представление HOA векторного сигнала.
Используя оба набора последовательностей MDIR(k) и MVEC(k), начальный кадр HOA C(k) разлагается на этапе или стадии 12 декомпрессии HOA в кадр XPS(k – 1) всех доминирующих звуковых (т. е. на базе направления и вектора) сигналов, и кадр CAMB(k – 1) компонента окружающей среды HOA. Следует отметить задержку одного кадра, которая происходит вследствие обработки с наложением-добавлением, чтобы избежать блокирующих артефактов. Кроме того, предполагается, что этап/ступень 12 декомпрессии HOA выводит некоторые расчетные параметры ζ(k – 1), описывающие, каким образом рассчитывать части исходного представления HOA из направленных сигналов, чтобы обогатить доминирующий звуковой компонент HOA. Дополнительно, предполагается, что должен быть создан вектор назначения цели vA,T(k – 1), содержащий информацию о распределении доминирующих звуковых сигналов, которые были определены на этапе или ступени 12 обработки с разложением HOA, для I доступных каналов. Находящиеся под воздействием каналы могут считаться занятыми, имеется в виду, что они недоступны для передачи каких-либо последовательностей коэффициентов компонента окружающей среды HOA в соответствующем временном кадре.
На этапе или ступени 13 обработки с изменением компонента окружающей среды кадр CAMB(k – 1) компонента окружающей среды HOA изменяется в соответствии с информацией, представленной вектором назначения цели vA,T(k – 1). В частности, определяется, какие последовательности коэффициентов компонента окружающей среды HOA должны быть переданы в данных I каналах, в зависимости (среди других аспектов) от информации (содержащейся в векторе назначения цели vA,T(k – 1), о том, какие каналы являются доступными и еще не заняты доминирующими звуковыми сигналами. Кроме того, плавное увеличение и плавное уменьшение последовательностей коэффициентов выполняется, если показатели выбранных последовательностей коэффициентов изменяются между последовательными кадрами.
Кроме того, предполагается, что первые последовательности коэффициентов OMIN компонента окружающей среды HOA CAMB(k – 2) всегда выбирают так, чтобы они были перцепционно кодированными и переданными, где OMIN = (NMIN + 1)2 с NMIN ≤ N, как правило, меньшего порядка, чем в исходном представлении HOA. Чтобы декоррелировать эти последовательности коэффициентов HOA, они могут быть преобразованы на этапе/ступени 13 в направленные сигналы (т. е. обобщенная функция планарной волны), падающие из некоторых предопределенных направлений ΩMIN,d, d = 1, … , OMIN.
Вместе с измененным компонентом окружающей среды HOA CM,A(k – 1) временной расчетный измененный компонент окружающей среды HOA CP,M,A(k – 1) вычисляют на этапе/ступени 13 и используют на этапах или ступенях 15, 151 обработки регулятора усиления, чтобы обеспечить рациональный предварительный просмотр, причем информация об изменении компонента окружающей среды HOA непосредственно связана с распределением всех возможных типов сигналов по доступным каналам на этапе или ступени 14 распределения каналов. Предполагается, что конечная информация об этом распределении содержится в конечном векторе назначения vA(k – 2). Для вычисления этого вектора на этапе/ступени 13, используют информацию, содержащуюся в векторе назначения цели vA,T(k – 1).
Распределение каналов на этапе/ступени 14 устанавливает с помощью информации, представляемой вектором назначения vA(k – 2), соответствующих сигналов, содержащихся в кадре XPS(k — 2), и содержащихся в кадре CM,A(k — 2) для I доступных каналов, дающих кадры сигналов yi(k – 2), i = 1, ... , I. Кроме того, соответствующие сигналы, содержащиеся в кадре XPS(k – 1) и в кадре CP,AMB(k – 1), также распределяются по I доступным каналам, давая расчетные кадры сигналов yP,i(k – 1), i = 1, ... , I.
Каждый из кадров сигналов yi(k – 2), i = 1, ... , I, наконец, обрабатывается регулятором усиления 15, 151, давая в результате показатели ei(k – 2) и флаги исключения βi(k – 2), i = 1, ... , I, а в сигналах zi(k - 2), i = 1, ... , I, в которых усиление сигнала является плавно изменяемым, таким образом, чтобы достичь диапазона значений, который подходит для этапов или ступеней 16 перцепционного кодирующего устройства. Выходной сигнал этапов/ступеней 16 соответствует кодированным кадрам сигналов z i ( k 2 )
Figure 00000008
, i = 1, ... , I.
Расчетные кадры сигналов yP,i(k – 1), i = 1, ... , I обеспечивают вид предварительного просмотра, чтобы избежать резких изменений усиления между последовательными блоками. Побочные информационные данные MDIR(k – 1), MVEC(k – 1), ei(k – 2), βi(k – 2), ζ(k – 1) и vA(k – 2) являются источником, кодируемым на этапе или ступени 17 кодера источника побочной информации, дающим в результате кодированный кадр побочной информации Γ ( k 2 )
Figure 00000009
. В мультиплексоре 18 кодированные сигналы z i ( k 2 )
Figure 00000010
кадра (k – 2) и кодированные данные побочной информации Γ ( k 2 )
Figure 00000009
для этого кадра объединяются, давая в результате выходной кадр B ( k 2 )
Figure 00000011
.
Предполагается, что в пространственном декодере HOA изменения усиления на этапах/ступенях 15, 151 возвращаются за счет использования побочной информации регулятора усиления, состоящей из показателей ei(k – 2) и флагов исключения βi(k – 2), i = 1, ... , I.
Декомпрессия HOA
Общая архитектура декомпрессора на основе HOA, описанная в документе EP 2800401 A1, показана на фиг. 2. Он состоит из аналогов компонентов компрессора на основе HOA, которые расположены в обратном порядке и включают в себя часть перцепционного декодирования и часть декодирования источника, изображенную на фиг. 2A и часть пространственного декодирования HOA, изображенную на фиг. 2B.
В части перцепционного декодирования и части декодирования источника (представляющей декодер источника перцепционной и побочной информации) этап или ступень 21 демультиплексирования принимает входной кадр B ( k )
Figure 00000012
из потока битов и предоставляет перцепционное кодированное представление z i ( k )
Figure 00000013
, i = 1, ... , I для I сигналов и кодированных данных побочной информации Γ ( k )
Figure 00000014
, описывающее, каким образом создавать их представление HOA. Сигналы z i ( k )
Figure 00000013
перцепционно декодируются на этапе или ступени 22 перцепционного декодера, давая в результате декодированные сигналы z ^ j ( k )
Figure 00000015
, i = 1, ... , I. Кодированные данные побочной информации Γ ( k )
Figure 00000014
декодируются на этапе или ступени 23 декодера источника побочной информации, давая в результате наборы данных MDIR(k + 1), MVEC(k + 1), показатели ei(k), флаги исключения βi(k), расчетные параметры ζ(k + 1) и вектор назначения vAMB,ASSIGN(k). Относительно разницы между vA и vAMB,ASSIGN, см. вышеупомянутый документ N14264 касательно MPEG.
Пространственное декодирование HOA
В части пространственного декодирования HOA каждый из перцепционно декодированных сигналов z ^ i ( k )
Figure 00000016
, i = 1, ... , I, является входным на этапе или ступени 24, 241 инверсной обработки регулятора усиления вместе со связанным с ним показателем коррекции усиления ei(k) и флагом исключения коррекции усиления βi(k). На i-м этапе/ступени инверсной обработки регулятора усиления создается кадр скорректированного сигнала усиления y ^ i ( k )
Figure 00000017
.
Все I кадры скорректированных сигналов усиления y ^ i ( k )
Figure 00000017
, i = 1, ... , I, подаются вместе с вектором назначения vAMB,ASSIGN(k) и наборами последовательностей MDIR(k + 1) и MVEC(k + 1) на этап или ступень 25 перераспределения каналов, см. вышеописанное определение наборов последовательностей MDIR(k + 1) и MVEC(k + 1). Вектор назначения vAMB,ASSIGN(k) состоит из I компонентов, которые показывают для каждого канала передачи, содержит ли он последовательность коэффициентов компонента окружающей среды HOA, и какой из них он содержит. На этапе/ступени 25 перераспределения каналов кадры скорректированных сигналов усиления y ^ i ( k )
Figure 00000017
перераспределяются, чтобы реконструировать кадр X ^ P S ( k )
Figure 00000018
всех доминирующих звуковых сигналов (т. е. всех сигналов на базе направления и вектора) и кадр CI,AMB(k) промежуточного представления компонента окружающей среды HOA. Кроме того, набор JAMB,ACT(k) показателей последовательностей коэффициентов компонента окружающей среды HOA активен в k-м кадре, и представляются наборы данных JE(k – 1), JD(k – 1) и JU(k – 1) показателей коэффициентов компонента окружающей среды HOA, который должен быть включен, выключен и оставаться активным в (k – 1)-м кадре.
На этапе или ступени 26 синтеза доминирующего звука представление HOA доминирующего компонента звука C PS ( k 1 )
Figure 00000019
вычисляется из кадра X ^ P S ( k )
Figure 00000018
всех доминирующих звуковых сигналов, использующих набор последовательностей MDIR(k + 1), набор ζ(k + 1) расчетных параметров, набор последовательностей MVEC(k + 1) и наборы данных JE(k – 1), JD(k – 1) и JU(k – 1).
На этапе или ступени 27 синтеза окружающей среды компонента окружающей среды HOA кадр C AMB ( k 1 )
Figure 00000020
создается из кадра CI,AMB(k) промежуточного представления компонента окружающей среды HOA, используя набор JAMB,ACT(k) показателей последовательностей коэффициентов компонента окружающей среды HOA, которые активны в k-м кадре. Задержка одного кадра вводится вследствие синхронизации с доминирующим звуковым компонентом HOA. Наконец, на этапе или ступени 28 смешивания HOA компонента окружающей среды HOA кадр C AMB ( k 1 )
Figure 00000020
и кадр C PS ( k 1 )
Figure 00000019
доминирующего звукового компонента HOA налагаются таким образом, чтобы создавать декодированный кадр HOA C ( k 1 )
Figure 00000021
.
Затем пространственный декодер HOA создает из I сигналов и побочной информации реконструированное представление HOA.
В случае, когда на стороне кодирования компонент окружающей среды HOA был преобразован в направленные сигналы, это преобразование инвертируется на стороне декодера на этапе/ступени 27.
Возможные максимальные коэффициенты усиления сигналов перед этапами/ступенями 15, 151 обработки регулятора усиления в компрессоре на основе HOA в значительной степени зависят от диапазона значений входного представления HOA. Следовательно, вначале определяется значимый диапазон значений для входного представления HOA, с последующим заключением о возможных максимальных коэффициентах усиления сигналов, перед поступлением на этапы/ступени обработки регулятора усиления.
Нормализация входного представления HOA
Для использования обработки согласно изобретению раньше должна проводиться нормализация (полного) входного сигнала представления HOA. Для сжатия HOA выполняется обработка по кадрам, где k-й кадр C(k) исходного входного представления HOA определяется по вектору c(t) непрерывных во времени последовательностей коэффициентов HOA, определенных в уравнении (54) в разделе Основы технологии Ambisonics высшего порядка, как
C ( k ) : = [ c ( ( k L + 1 ) T s ) ] c ( ( k L = 2 ) T s ) c ( ( k L + 1 ) L T s ) R O × L
Figure 00000022
(1)
где k обозначает индекс кадра, L протяженность кадра (в выборках), O = (N + l)2 число последовательностей коэффициентов HOA и Ts показывает период дискретизации.
Как указано в документе EP 2824661 A1, значащая нормализация представления HOA, рассматривая с практической точки зрения, не достигается путем наложения ограничений на диапазон значений отдельных последовательностей HOA коэффициентов cn m(t), поскольку эти функции временной области не являются сигналами, которые действительно воспроизводятся громкоговорителями после восстановления. Вместо того, более удобно учитывать «эквивалентное представление пространственной области», которое получают при восстановлении представления HOA в O сигналах виртуальных громкоговорителей wj(t), 1 ≤ j ≤ O. Предполагается, что соответствующие положения виртуальных громкоговорителей выражаются посредством сферической системы координат, где считается, что каждое положение лежит на единичной сфере и имеет радиус «1». Следовательно, положения могут быть эквивалентно выражены направлениями, зависимыми от порядка Ωj (N) = (θj (N), φj (N)), 1 ≤ j ≤ O, где θj (N) и φj (N) обозначают углы наклона и азимуты, соответственно (см. также фиг. 6 и ее описание для определения сферической системы координат). Эти направления должны быть распределены по единичной сфере как можно равномернее, см., например, технический отчет J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, University of Dortmund, 1999. Число узлов находится по ссылке http://www.mathematik.uni-dortmund.de/lsx/research/projects /fliege/nodes/nodes.html для вычисления конкретных направлений. Эти положения, главным образом, зависят от вида определения «однородного распределения по сфере» и, следовательно, неоднозначны.
Преимущество определения диапазонов значений для сигналов виртуальных громкоговорителей перед определением диапазонов значений для последовательностей коэффициентов HOA заключается в том, что диапазон значений для первого может быть установлен интуитивно равным интервалу [–1,1], как в случае обычных сигналов громкоговорителей, предполагающих представление PCM. Это ведет к пространственно однородно распределенной ошибке квантования, таким образом, что преимущественно квантование применяют в области, релевантной в отношении реального прослушивания. Важным аспектом в данном контексте является то, что число битов на выборку может быть выбрано таким же низким, каким оно обычно является для обычных сигналов громкоговорителей, т. е. 16, что повышает эффективность по сравнению с прямым квантованием последовательностей коэффициентов HOA, где обычно требуется большее число битов (например, 24 или даже 32) на выборку.
Для подробного описания процесса нормализации в пространственной области, все сигналы виртуальных громкоговорителей суммируются в векторе как w(t):= [w1(t) ... wO(t)]T, (2)
где (·)T обозначает преобразование. Обозначая модовую матрицу по виртуальным направлениям Ωj (N), 1 ≤ j ≤ O, как Ψ, которая определяется в виде Ψ : = [ S 1 S O ] R O × O
Figure 00000023
(3)
с
Figure 00000024
Figure 00000025
, (4)
процесс восстановления может быть выражен как умножение матриц w(t) = (Ψ)–1 · c(t). (5)
Используя эти определения, обоснованным требованием к сигналам виртуальных громкоговорителей является:
| | w ( l T S ) | | = m a x 1 j O | w j ( l T S ) | 1 l
Figure 00000026
(6)
что означает, что амплитуда каждого сигнала виртуального громкоговорителя должна лежать в диапазоне [–1,1[. Мгновение времени t представлено индексом выборки l и периодом выборки TS для значений выборки указанных кадров данных HOA.
Полная мощность сигналов громкоговорителей, следовательно, удовлетворяет условию
| | w ( l T S ) | | 2 2 = j = 1 O | w j ( l T S ) | 2 O l
Figure 00000027
(7)
Восстановление и нормализация представления кадра данных HOA выполняется перед вводом C(k) по фиг. 1A.
Последствия для диапазона значений сигнала перед регулятором усиления
Предполагая, что нормализация входного представления HOA выполняется в соответствии с описанием, приведенным в разделе Нормализация входного представления HOA, диапазон значений сигналов yi, i = 1, ... , I, которые вводятся в блок 15, 151 обработки регулятора усиления в компрессоре на основе HOA, учитывается в дальнейшем. Эти сигналы создаются путем распределения по доступным I каналам одной или более последовательностей коэффициентов HOA, или доминирующих звуковых сигналов xPS,d, d = l, ... , D, и/или конкретных последовательностей коэффициентов компонента окружающей среды HOA cAMB,n, n = l, …, O, к части которых применяется пространственное преобразование. Следовательно, необходимо анализировать возможный диапазон значений данных упомянутых различных типов сигналов при допущении нормализации в уравнении (6). Поскольку все виды сигналов косвенно вычисляют из исходных последовательностей коэффициентов HOA, рассматриваются их возможные диапазоны значений.
Случай, в котором только одна или более последовательностей коэффициентов HOA содержится в I каналах, не изображен на фиг. 1A и фиг. 2B, т. е. в таком случае разложения HOA изменение компонента окружающей среды и соответствующие блоки синтеза не требуются.
Последствия для диапазона значений представления HOA
Непрерывное во времени представление HOA получают из сигналов виртуальных громкоговорителей по уравнению c(t) = Ψw(t), (8)
которое является обратной операцией относительно уравнения (5).
Следовательно, полная мощность последовательностей коэффициентов HOA связана следующим образом:
| | c ( l T s ) | | 2 2 | | Ψ | | 2 2 | | w ( l T s ) | | 2 2 | | Ψ | | 2 2 O
Figure 00000028
, (9)
используя уравнения (8) и (7).
При допущении N3D нормализации функций сферических гармоник, квадрат евклидовой нормы модовой матрицы может быть записан в виде ||Ψ||2 2 = K · O (10a)
где K = | | Ψ | | 2 2 O
Figure 00000029
(10b)
обозначает отношение между квадратом евклидовой нормы модовой матрицы и числом O последовательностей коэффициентов HOA. Данное отношение зависит от конкретного порядка N HOA и конкретных направлений виртуальных громкоговорителей Ωj (N), 1 ≤ j ≤ O, которые могут быть выражены путем дополнения к отношению соответствующего списка параметров следующим образом:
K = K(N, Ω1 (N) , … ΩO (N)). (10c)
На фиг. 3 показаны значения K для виртуальных направлений Ωj (N), 1 ≤ j ≤ O, в соответствии с вышеупомянутой статьей Fliege и др. для порядков HOA N = 1, ..., 29.
Объединение всех предыдущих аргументов и соображений дает верхнюю границу для величины последовательностей коэффициентов HOA следующим образом:
| | c ( l T S ) | | | | c ( l T S ) | | 2 K O
Figure 00000030
(11)
где первое неравенство вытекает непосредственно из определений нормы.
Важно заметить, что условие в уравнении (6) заключает в себе условие в уравнении (11), но обратное не имеет места, т. е. уравнение (11) не заключает в себе уравнение (6).
Другим важным аспектом является то, что при условии почти равномерно распределенных положений виртуальных громкоговорителей векторы-столбцы модовой матрицы Ψ, которые представляют векторы мод по положениям виртуальных громкоговорителей, являются почти ортогональными друг к другу и имеют евклидову норму N + 1 каждого. Данное свойство означает, что пространственное преобразование почти сохраняет евклидову норму, за исключением постоянного множителя, т. е.
| | c ( l T S ) | | 2 ( N + 1 ) | | w ( l T S ) | | 2
Figure 00000031
. (12)
Истинная норма ||c(lTS)||2 тем больше отличается от приближения в уравнении (12), чем больше нарушается допущение об ортогональности векторов мод.
Последствия для диапазона значений доминирующих звуковых сигналов
Оба типа доминирующих звуковых сигналов (направленных и векторных) имеют то общее, что их вклад в представление HOA описывается одним вектором v 1 R O
Figure 00000032
с евклидовой нормой N + 1, т. е. ||v1||2 = N + 1. (13)
В случае направленного сигнала этот вектор соответствует вектору моды по определенному направлению источника сигнала ΩS,1, т. е.
v1 = S(ΩS,1) (14)
: = [ S O O ( Ω S ,1 ) S 1 - 1 ( Ω S ,1 ) S 1 O ( Ω S , 1 ) S 1 1 ( Ω S , 1 ) S N N - 1 ( Ω S , 1 ) S N N ( Ω S ,1 ) ] T
Figure 00000033
(15)
Данный вектор описывает с помощью представления HOA направленный луч в направлении источника сигнала ΩS,1. В случае векторных сигналов, вектор v1 не ограничен тем, чтобы быть вектором моды по какому-либо направлению, и, следовательно, может описывать более общее распределение по направлениям монофонического векторного сигнала.
В дальнейшем рассматривается общий случай D доминирующих звуковых сигналов xd(t), d = 1, ... , D, которые могут быть заключены в векторе x(t) в соответствии с
x(t) = [x1(t) x2 (t) ... xD(t)]T. (16)
Данные сигналы должны определяться на основе матрицы
V: = [v1 v2 ... vD] (17)
которая образована всеми векторами vd, d = l, ... , D, представляющими распределение по направлениям монофонических доминирующих сигналов xd(t), d = 1, ..., D.
Для получения значимого извлечения доминирующих звуковых сигналов x(t) сформулированы следующие ограничения:
a) Каждый доминирующий звуковой сигнал получают как линейную комбинацию последовательностей коэффициентов исходного представления HOA, т. е.
x(t)=A · c(t), (18)
где A R D × O
Figure 00000034
обозначает матрицу смешивания.
b) Матрица смешивания Α должна выбираться таким образом, чтобы ее евклидова норма не превышала значения «1», т. е.
| | A | | 2 ! 1
Figure 00000035
, (19)
и таким образом, чтобы квадрат евклидовой нормы (или эквивалентная мощность) остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов был не больше, чем квадрат евклидовой нормы (или эквивалентная мощность) исходного представления HOA, т. е.
| | c ( t ) V · x ( t ) | | 2 2 ! | | c ( t ) | | 2 2
Figure 00000036
. (20)
При вводе уравнения (18) в уравнение (20) видно, что уравнение (20) эквивалентно ограничению
| | I V · A | | 2 ! 1
Figure 00000037
, (21)
где I обозначает единичную матрицу.
Из ограничений в уравнении (18) и (19) и из совместимости евклидовой матрицы и векторных норм, верхнюю границу для амплитуд доминирующих звуковых сигналов находят с помощью уравнений
| | x ( lT S ) | | | | x ( lT S ) | | 2
Figure 00000038
(22)
| | A | | 2 | | c ( l T S ) | | 2
Figure 00000039
(23)
K O
Figure 00000040
, (24)
используя уравнения (18), (19) и (11). Следовательно, гарантируется, что доминирующие звуковые сигналы остаются в том же диапазоне, что и исходные последовательности коэффициентов HOA (сравните с уравнением (11)), т. е. | | x ( l T S ) | | K · O
Figure 00000041
(25)
Пример выбора матрицы смешивания
Пример того, как определить матрицу смешивания, удовлетворяющую ограничению (20), получают путем вычисления доминирующих звуковых сигналов таким образом, что евклидова норма остатка после извлечения сведена к минимуму, т. е.
x(t) = argminx(t)||V • x(t) – c(t) ||2. (26)
Решение для минимизации проблемы в уравнении (26) дано с помощью x(t) = V+ + c(t), (27)
где (•)+ показывает псевдоинверсию Мура-Пенроуза. Из сравнения уравнения (27) с уравнением (18) следует, что, в данном случае, матрица смешивания равна псевдоинверсии Мура-Пенроуза матрицы V, т. е. A = V+. Тем не менее, матрица V по-прежнему должна выбираться так, чтобы удовлетворять ограничению (19), т. е. | | V + | | 2 ! 1
Figure 00000042
. (28)
В случае только направленных сигналов, когда матрица V представляет собой модовую матрицу по некоторым направлениям сигналов источника
ΩS,d, d = 1, ... , D, т. е. V = [S(ΩS,1) S(ΩS,2) ... S(ΩS,D)], (29)
ограничение (28) может быть удовлетворено при выборе направлений сигналов источника ΩS,d, d = 1, ..., D, таким образом, чтобы расстояние между двумя соседними направлениями было не слишком малым.
Последствия для диапазона значений последовательностей коэффициентов компонента окружающей среды HOA
Компонент окружающей среды HOA представляет собой компонент, вычисленный путем вычитания из исходного представления HOA представления HOA доминирующих звуковых сигналов, т. е. cAMB(t) = c(t) – V • x(t). (30)
Если вектор доминирующих звуковых сигналов x(t) определен в соответствии с критерием (20), можно сделать вывод, что
| | c A M B ( l T S ) | | | | c A M B ( l T S ) | | 2
Figure 00000043
(31)
= ( 30 ) | | c ( l T S ) V x ( l T S ) | | 2
Figure 00000044
(32)
( 20 ) | | c ( lT S ) | | 2
Figure 00000045
(33)
= ( 11 ) K O
Figure 00000046
. (34)
Диапазон значений пространственно преобразованных последовательностей коэффициентов компонента окружающей среды HOA
Дополнительный аспект обработки сжатия HOA, предложенный в документе EP 2743922 A1 и в вышеупомянутом документе MPEG N14264, заключается в том, что последовательности коэффициентов OMIN и компонента окружающей среды HOA всегда выбираются так, чтобы быть распределенными по каналам передачи, где OMIN = (NMIN + 1)2 с NMIN ≤ N, как правило, меньшего порядка, чем в исходном представлении HOA. Чтобы декоррелировать эти последовательности коэффициентов HOA, они могут быть преобразованы в сигналы виртуальных громкоговорителей, падающие из некоторых предопределенных направлений ΩMIN,d, d = 1, … , OMIN (по аналогии с принципами, описанными в разделе Нормализация входного представления HOA).
Определение вектора всех последовательностей коэффициентов компонента окружающей среды HOA с порядковым индексом n ≤ NMIN по cAMB,MIN(t) и модовой матрицей по виртуальным направлениям ΩMIN,d, d = 1, … , OMIN, на ΨMIN, вектор всех сигналов виртуальных громкоговорителей (определяемых по) wMIN(t), получают из уравнения
Figure 00000047
(35)
Следовательно, используя совместимость евклидовой матрицы и векторных норм,
| | w MIN ( l T S ) | | | | w MIN ( l T S ) | | 2
Figure 00000048
(36)
( 35 ) | | Ψ MIN - 1 | | 2 · | | c AMB ,MIN ( l T S ) | | 2
Figure 00000049
(37)
( 35 ) | | Ψ MIN - 1 | | 2 · K · O
Figure 00000050
(38)
В вышеупомянутом документе N14264 касательно MPEG виртуальные направления ΩMIN,d, d = 1, … , OMIN, выбирают в соответствии с вышеупомянутой статьей Fliege и др. Соответствующие евклидовы нормы инверсии модовых матриц ΨMIN показаны на фиг. 4 для порядков NMIN = 1, … , 9. Показано, что | | Ψ MIN 1 | | 2 < 1
Figure 00000051
для NMIN = 1, … , 9. (39).
Однако, это, в общем, не действует для NMIN > 9, где значения | | Ψ MIN 1 | | 2
Figure 00000052
обычно больше, чем «1». Тем не менее, по меньшей мере для 1 ≤ NMIN ≤ 9 амплитуды сигналов виртуальных громкоговорителей связаны по уравнению
| | w MIN ( l T S ) | | ( 38 ) , ф и г .4 K · O д л я 1 N MIN 9
Figure 00000053
(40)
Путем ограничения входного представления HOA для удовлетворения условию (6), которое требует, чтобы амплитуды сигналов виртуальных громкоговорителей из данного представления HOA не превышали значения «1», может быть гарантировано, что эти амплитуды сигналов перед регулятором усиления не будут превышать значения K · O
Figure 00000054
(см. уравнения (25), (34) и (40)) при следующих условиях:
a) Вектор всех доминирующих звуковых сигналов x(t) вычисляют в соответствии с уравнением/ограничениями (18), (19) и (20);
b) Минимальный порядок NMIN, который определяет число OMIN первых последовательностей коэффициентов компонента окружающей среды HOA, к которым применяется пространственное преобразование, должен быть меньше, чем «9», при использовании в качестве положений виртуальных громкоговорителей, которые определены в вышеупомянутой статье Fliege и др.
Далее, можно сделать вывод, что амплитуды сигналов перед регулятором усиления не будут превышать значения K MAX · O
Figure 00000055
для любого порядка N вплоть до максимального порядка NMAX, представляющего интерес, т. е. 1 ≤ N ≤ NMAX, где K M A X = max 1 N N M A X K ( N , Ω 1 ( N ) , , Ω O ( N ) )
Figure 00000056
. (41a)
В частности, исходя из фиг. 3, можно сделать вывод, что если направления виртуальных громкоговорителей Ωj (N), 1 ≤ j ≤ O, для исходного пространственного преобразования, как предполагается, выбраны в соответствии с распределением по статье Fliege и др., и если дополнительно максимальный порядок, представляющий интерес, предполагается равным NMAX = 29 (как, например, в документе N14264 касательно MPEG), то амплитуды сигналов перед регулятором усиления не будут превышать значения 1,5 O, поскольку K MAX
Figure 00000057
< 1,5 в данном особом случае. Т. е. можно выбрать K MAX
Figure 00000058
= 1,5.
KMAX зависит от максимального порядка, представляющего интерес, NMAX и направлений виртуальных громкоговорителей Ωj (N), 1 ≤ j ≤ O, которые могут быть выражены как
Figure 00000059
. (41b)
Следовательно, минимальный коэффициент усиления, применяемый с помощью регулятора усиления, для гарантии, что сигналы перед перцепционным кодированием лежат в пределах интервала [–1.1], задается посредством 2 e M I N
Figure 00000060
, где
e MIN = log 2 ( K MAX O ) < 0
Figure 00000061
. (41c)
В случае, когда амплитуды сигналов перед регулятором усиления слишком малы, в документе MPEG N14264 предлагается, что возможно их плавное усиление с коэффициентом до 2 e M A X
Figure 00000062
, где eMAX ≥ 0 передается в качестве побочной информации в кодированном представлении HOA.
Таким образом, каждый показатель по основанию «2», описывающий в блоке доступа полное абсолютное изменение амплитуды измененного сигнала, вызванное блоком обработки регулятора усиления, от первого до текущего кадра, может принимать любое целое значение в пределах интервала [eMIN, eMAX]. Следовательно, (наименьшее целое) число βe битов, требуемое для кодирования, задано уравнением
β e = log 2 ( | e MIN | + e MAX + 1 ) = log 2 ( log 2 ( K MAX O ) + e MAX + 1 )
Figure 00000063
. (42)
В случае, когда амплитуды сигналов перед регулятором усиления не слишком малые, уравнение (42) может быть упрощено:
β e = log 2 ( | e MIN | + 1 ) = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000064
. (42a)
Данное число битов βe может быть вычислено на входе этапов/ступеней 15, ... , 151 регулятора усиления.
Использование этого числа βe битов для показателя гарантирует, что все возможные абсолютные изменения амплитуды, вызванные блоками 15, ... , 151 обработки регулятора усиления компрессора на основе HOA, могут быть зарегистрированы, позволяя начинать декомпрессию в некоторых заранее определенных точках входа в пределах сжатого представления.
При начале декомпрессии сжатого представления HOA в декомпрессоре на основе HOA недифференцируемые значения коэффициентов усиления, представляющие полные абсолютные изменения амплитуды, присвоенные побочной информации для некоторых кадров данных, и принимаемые от демультиплексора 21 вне принятого потока данных B
Figure 00000065
, используются на этапах или ступенях 24,..., 241 обратного регулятора усиления для применения соответствующего регулятора усиления, в режиме, противоположном обработке, которая выполнялась на этапах/ступенях 15,..., 151 регулятора усиления.
Дополнительный вариант осуществления
При реализации конкретной системы компрессии/декомпрессии HOA, как описано в разделах Компрессия HOA, Пространственное кодирование HOA, Декомпрессия HOA и Пространственное декодирование HOA, число βe битов для кодирования показателя должно быть установлено в соответствии с уравнением (42), в зависимости от масштабного коэффициента KMAX.DES, который сам зависит от желаемого максимального порядка NMAX.DES представления HOA, подлежащего сжатию, и определенных направлений виртуальных громкоговорителей Ω DES ,1 ( N ) , , Ω DES , O ( N )
Figure 00000066
, 1 ≤ N ≤ NMAX.
Например, предполагая, что NMAX,DES = 29, и выбирая направления виртуальных громкоговорителей в соответствии со статьей Fliege и др., обоснованным выбором будет K MAX ,DES = 1,5
Figure 00000067
. В этой ситуации правильное сжатие гарантировано для представлений HOA с порядковым номером N при 1 ≤N ≤ NMAX, которые нормализованы в соответствии с разделом Нормализация входного представления HOA, используя те же направления виртуальных громкоговорителей Ω DES ,1 ( N ) , , Ω DES , O ( N )
Figure 00000066
. Однако, эта гарантия не может быть предоставлена в случае представления HOA, которое также (по соображениям эффективности) эквивалентно представлено сигналами виртуальных громкоговорителей в формате PCM, но в котором направления Ω j ( N )
Figure 00000068
, 1 ≤ j ≤ O, виртуальных громкоговорителей выбраны так, чтобы отличаться от направлений виртуальных громкоговорителей Ω DES ,1 ( N ) , , Ω DES , O ( N )
Figure 00000069
, предполагаемых на этапе проектирования системы.
Вследствие такого отличающегося выбора положений виртуальных громкоговорителей, даже если амплитуды этих сигналов виртуальных громкоговорителей лежат в пределах интервала [1,1[, больше не может быть гарантировано, что амплитуды сигналов перед регулятором усиления не будут превышать значения K MAX ,DES O
Figure 00000070
. И, следовательно, невозможно гарантировать, что это представление HOA имеет соответствующую нормализацию для сжатия, в соответствии с обработкой, описанной в документе MPEG N14264.
В данной ситуации предпочтительно иметь систему, которая обеспечивает, основываясь на знании положений виртуальных громкоговорителей, максимально допустимую амплитуду сигналов виртуальных громкоговорителей, чтобы гарантировать соответствующее представление HOA, пригодное для сжатия в соответствии с обработкой, описанной в документе N14264 касательно MPEG. На фиг. 5 проиллюстрирована такая система. Она принимает в качестве входных данных положения виртуальных громкоговорителей Ω j ( N )
Figure 00000068
, 1 ≤ j ≤ O, где O = (N + 1)2 при N Ν 0
Figure 00000071
, и создает в качестве выходных данных максимально допустимую амплитуду γdB (измеряемую в децибелах) сигналов виртуальных громкоговорителей. На этапе или ступени 51 вычисляется модовая матрица Ψ по положениям виртуальных громкоговорителей, в соответствии с уравнением (3). На следующем этапе или ступени 52 вычисляется евклидова норма ||Ψ||2 модовой матрицы. На третьем этапе или ступени 53 вычисляется амплитуда γ как минимум «1» и отношение между произведением квадратного корня из числа положений виртуальных громкоговорителей и KMAX,DES, и евклидовой нормой модовой матрицы, т. е.,
γ = min ( 1, O K MAX ,DES | | Ψ | | 2 )
Figure 00000072
. (43)
Значение в децибелах получено по формуле γ d B = 20 l o g 1 0 ( γ )
Figure 00000073
. (44)
Для пояснения: из вывода вышеуказанного видно, что, если величина последовательностей коэффициентов HOA не превышает значения K MAX ,DES O
Figure 00000074
, т. е., если
| | c ( l T S ) | | K MAX ,DES O
Figure 00000075
, (45)
все сигналы перед блоками 15, 151 обработки регулятора усиления будут, соответственно, не превышать этого значения, что является требованием к соответствующему сжатию HOA.
Из уравнения (9) найдено, что величина последовательностей коэффициентов HOA связана отношением
| | c ( l T S ) | | | | c ( l T S ) | | 2 | | Ψ | | 2 · | | w ( l T S ) | | 2
Figure 00000076
. (46)
Следовательно, если значение γ установлено в соответствии с уравнением (43), и сигналы виртуальных громкоговорителей в формате PCM удовлетворяют отношению
| | w ( l T S ) | | γ
Figure 00000077
, (47)
из уравнения (7) следует, что | | w ( l T S ) | | 2 γ · O
Figure 00000078
(48)
и что требование (45) удовлетворено.
Т. е. максимальное значение величины «1» в уравнении (6) заменено максимальным значением величины γ в уравнении (47).
Основы технологии Ambisonics высшего порядка
Технология Ambisonics высшего порядка (Higher Order Ambisonics, HOA) основана на описании звукового поля в пределах компактной области, представляющей интерес, которая считается свободной от источников звука. В этом случае пространственно-временное поведение звукового давления p(t,x) при времени t и положении x в пределах области, представляющей интерес, физически полностью определяется уравнением однородной волны. В дальнейшем предполагается сферическая система координат, как показано на фиг. 6. В используемой системе координат ось x указывает на фронтальное положение, ось y указывает влево, а ось z указывает вверх. Положение в пространстве x = (r, θ, φ)T представлено радиусом r > 0 (т. е. расстоянием до начала координат), углом наклона θ [ 0, π ]
Figure 00000079
, измеренным от полярной оси z, и азимутальным углом формула φ [ 0, 2 π ]
Figure 00000080
, измеренным против часовой стрелки в плоскости x – y от оси x. Кроме того, (·)T обозначает преобразование.
Затем, можно показать, согласно учебнику «Fourier Acoustics», что преобразование Фурье звукового давления по времени, обозначенное Ft(·), т. е.
P ( ω , x ) = F t ( p ( t , x ) ) = p ( t , x ) e i ω t d t
Figure 00000081
(49)
при ω, обозначающей угловую частоту, и i, указывающей мнимую единицу, может быть развернуто в ряд сферических гармоник в соответствии с
P ( ω = k c S , r , θ , φ ) = n = 0 N m = n n A n m ( k ) j n ( k r ) S n m ( θ , φ )
Figure 00000082
, (50)
где cs обозначает скорость звука, а k обозначает угловой индекс моды, который связан с угловой частотой ω по формуле k = ω c s
Figure 00000083
. Кроме того, jn(·) обозначает сферические функции Бесселя первого рода, а S n m ( θ , φ )
Figure 00000084
обозначает вещественные сферические гармоники с порядком n и степенью m, которые определены в разделе Определение вещественных сферических гармоник. Коэффициенты расширения A n m ( k )
Figure 00000085
зависят только от углового индекса моды k. Следует заметить, что неявно предполагается, что звуковое давление является пространственно ограниченным по полосе частот. Таким образом, ряд усечен по порядковому индексу n при верхнем пределе N, который называется порядком представления HOA.
Если звуковое поле представлено в виде суперпозиции бесконечного числа гармонических плоских волн с различными угловыми частотами ω, прибывающих со всех возможных направлений, указанных последовательностью углов (θ,φ), может быть показано (см. B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4(116), pages 2149-2157, October 2004), что соответствующая комплексная функция амплитуды плоской волны c(ω,θ,φ) может быть выражена следующим разложением по сферическим гармоникам
C ( ω = k c S , θ , φ ) = n = 0 N m = n n C n m ( k ) S n m ( θ , φ )
Figure 00000086
, (51)
где коэффициенты разложения C n m ( k )
Figure 00000087
связаны с коэффициентами разложения A n m ( k )
Figure 00000088
как A n m ( k ) = i n C n m ( k )
Figure 00000089
. (52)
Предполагая, что индивидуальные коэффициенты C n m ( k = ω / c S )
Figure 00000090
являются функциями угловой частоты ω, применение обратного преобразования Фурье (обозначенного через F–1(·)), дает функции временной области
c n m ( t ) = F t 1 ( C n m ( ω / c S ) ) = 1 2 π C n m ( ω c S ) e i ω t d ω
Figure 00000091
(53)
для каждого порядка n и степени m. Эти функции временной области здесь называют непрерывными во времени последовательностями коэффициентов HOA, которые могут быть заключены в одном векторе c(t) в виде
c ( t ) = [ c 0 0 ( t ) c 1 1 ( t ) c 1 0 ( t ) c 1 1 ( t ) c 2 2 ( t ) c 2 1 ( t ) c 2 0 ( t ) c 2 1 ( t ) c 2 2 ( t ) c N N 1 ( t ) c N N ( t ) ] T
Figure 00000092
(54)
Индекс положения последовательности коэффициентов HOA c n m ( t )
Figure 00000093
в векторе c(t) дан в виде n(n + 1) + 1 + m. Полное число элементов в векторе c(t) дано в виде O = (N + 1)2.
Конечный формат Ambisonics дает квантованный вариант c(t), использующий частоту дискретизации fS как
{ c ( l T S ) } l Ν = { c ( T S ) , c ( 2 T S ) , c ( 3 T S ) , c ( 4 T S ) , }
Figure 00000094
(55)
где TS= 1/fS обозначает период дискретизации. Элементы c(lTS) называют дискретными по времени последовательностями коэффициентов HOA, которые, как может быть показано, всегда являются вещественными. Это свойство также справедливо для непрерывных во времени вариантов c n m ( t )
Figure 00000093
.
Определение вещественных сферических гармоник
Вещественные сферические гармоники S n m ( θ , φ )
Figure 00000095
(предполагающие SN3D нормализацию в соответствии с диссертацией J. Daniel, "Representation de champs acoustiques, application a la transmission et a la reproduction de scenes sonores complexes dans un contexte multimedia", PhD thesis, Universite Paris, 6, 2001, chapter 3.1), даны в виде
S n m ( θ , φ ) = ( 2 n + 1 ) ( n | m | ) ! ( n + | m | ) ! P n , | m | ( cos θ ) t r g m ( φ )
Figure 00000096
(56)
с
t r g m ( φ ) = { 2 c o s ( m φ ) m > 0 1 m = 0 - 2 s i n ( m φ ) m < 0
Figure 00000097
(57)
Присоединенные функции Лежандра Pn,m(x) определяются как
P n , m ( x ) = ( 1 x 2 ) m / 2 d m d x m P n ( x ) , m 0
Figure 00000098
(58)
с полиномом Лежандра Pn(x) и, в отличие от учебника E.G. Williams, "Fourier Acoustics", vol. 93 of Applied Mathematical Sciences, Academic Press, 1999, не содержат фазовой составляющей Кондона-Шортли (–1)m.
Обработка согласно изобретению может быть выполнена с помощью одного процессора или электронной схемы или с помощью нескольких процессоров или электронных схем, работающих параллельно и/или работающих на различных частях обработки согласно изобретению.
Инструкции по эксплуатации процессора или процессоров могут быть сохранены в одном или более запоминающих устройств.

Claims (50)

1. Способ определения сжатия представления (C(k)) кадра данных с помощью воспроизводящей аппаратуры более высокого порядка (HOA) наименьшего целого числа βe битов для описания представлений недифференцируемых значений коэффициентов усиления, соответствующих изменениям амплитуды в качестве показателя «два» (2e) для сигналов каналов кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки и в котором каждому сигналу канала каждого из кадров данных HOA присваивают дифференцируемое значение коэффициента усиления, при этом дифференцируемое значение коэффициента усиления вызывает изменение амплитуд первых значений выборки сигнала канала в текущем кадре ((k - 2)) данных HOA по отношению ко вторым значениям выборки сигнала канала в предыдущем кадре ((k - 3)) данных HOA;
и при этом результирующие сигналы каналов с адаптированным коэффициентом усиления кодируют в кодирующем устройстве;
и при этом представление кадра данных HOA выполняют в пространственной области для O сигналов wj(t) виртуальных громкоговорителей, при этом положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, при этом указанное воспроизведение представляют произведением матриц w(t) = (Ψ)-1 ⋅ c(t), где w(t) - вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ - модовая матрица положений виртуальных громкоговорителей, и c(t) - вектор соответствующих последовательностей коэффициентов HOA представления кадра данных HOA;
и при этом указанное представление (C(k)) кадра данных HOA нормализуют таким образом, что | | w ( t ) | | = max 1 j O | w j ( t ) | 1 t
Figure 00000099
,
при этом способ включает:
- формирование сигналов каналов посредством
a) умножения вектора последовательностей c(t) коэффициентов HOA на матрицу Α смешивания для представления доминирующих звуковых сигналов (x(t)) в сигналах каналов, при этом матрица Α смешивания представляет линейную комбинацию последовательностей коэффициентов нормализованного представления кадра данных HOA;
b) вычитания доминирующих звуковых сигналов из нормализованного представления кадра данных HOA для представления компонента cAMB(t) окружающей среды в сигналах каналов и преобразования результирующего минимального компонента cAMB,MIN(t) окружающей среды путем вычисления w MIN ( t ) = Ψ MIN 1 c AMB ,MIN ( t )
Figure 00000100
, где | | Ψ MIN 1 | | 2 < 1
Figure 00000101
, и ΨMIN - модовая матрица для указанного минимального компонента cAMB,MIN(t) окружающей среды;
c) выбора части последовательностей c(t) коэффициентов HOA, которые относятся к последовательностям коэффициентов компонента окружающей среды HOA, к которым применяют пространственное преобразование;
- определение целого числа βe битов исходя из β e = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000102
, где
Figure 00000103
, N – порядок, NMAX - максимальный порядок, представляющий интерес, Ω 1 ( N ) , , Ω O ( N )
Figure 00000104
- направления указанных виртуальных громкоговорителей, O = (N + 1)2 - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
2. Способ по п. 1, отличающийся тем, что в дополнение к указанному преобразованному минимальному компоненту окружающей среды непреобразованные последовательности коэффициентов окружающей среды компонента cAMB(t) окружающей среды включают в сигнал канала.
3. Способ по п. 1 или 2, отличающийся тем, что представления недифференцируемых значений (2e) коэффициентов усиления, связанных с указанными сигналами каналов из конкретных указанных кадров данных HOA, передают в качестве дополнительной информации, при этом каждое из них представляют в виде βe битов.
4. Способ по п. 1 или 2, отличающийся тем, что целое число βe битов устанавливают как β e = log 2 ( log 2 ( K MAX O ) + e max + 1 )
Figure 00000105
, где e max
Figure 00000106
O служит для увеличения количества битов βe исходя из определения того, что амплитуды значений выборки сигнала канала перед регулятором усиления ниже порогового значения.
5. Способ по п. 1 или 2, отличающийся тем, что K MAX
Figure 00000107
=1,5.
6. Способ по п. 1 или 2, отличающийся тем, что указанную матрицу A смешивания определяют таким образом, чтобы свести к минимуму евклидову норму остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов, полагая, что псевдоинверсия Мура-Пенроуза модовой матрицы сформирована из всех векторов, представляющих распределение по направлениям монофонических доминирующих звуковых сигналов.
7. Способ по п. 1 или 2, отличающийся тем, что исходя из определения того, что положения O сигналов виртуальных громкоговорителей не совпадают с положениями, предполагаемыми для вычисления βe, включающего:
- вычисление модовой матрицы Ψ исходя из несовпадающих положений виртуальных громкоговорителей;
- вычисление евклидовой нормы ||Ψ||2 модовой матрицы;
- вычисление максимально допустимого значения амплитуды γ = min ( 1, O K MAX ,DES | | Ψ | | 2 )
Figure 00000108
, которое замещает максимально допустимую амплитуду в указанной нормализации;
при этом
Figure 00000109
, N – порядок, O = (N + 1)2 - число последовательностей коэффициентов HOA, K - отношение между квадратом евклидовой нормы указанной модовой матрицы и O, и где NMAX,DES - порядок, представляющий интерес, и
Figure 00000110
являются для каждого порядка направлениями виртуальных громкоговорителей, которые допускают для реализации указанного сжатия указанного представления (C(k)) кадра данных HOA, так что βe выбирают в виде β e = log 2 ( log 2 ( K MAX ,DES O ) + 1 )
Figure 00000111
, для кодирования показателей (e) по основанию «2» указанных недифференцируемых значений коэффициентов усиления.
8. Устройство для определения сжатия представления (C(k)) кадра данных с помощью воспроизводящей аппаратуры более высокого порядка (HOA) наименьшего целого числа βe битов для описания представлений недифференцируемых значений коэффициентов усиления, соответствующих изменениям амплитуды в качестве показателя «два» (2e) для сигналов каналов кадров данных HOA,
при этом каждый сигнал канала в каждом кадре содержит группу значений выборки и при этом каждому сигналу канала каждого из кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, при этом дифференцируемое значение коэффициента усиления вызывает изменение амплитуд первых значений выборки сигнала канала в текущем кадре ((k - 2)) данных HOA по отношению ко вторым значениям выборки сигнала канала в предыдущем кадре ((k - 3)) данных HOA, и при этом результирующие сигналы каналов с адаптированным коэффициентом усиления кодированы в кодирующем устройстве;
и при этом представление (C(k)) кадра данных HOA выполнено в пространственной области для O сигналов wj(t) виртуальных громкоговорителей, при этом положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, при этом указанное выполнение представлено перемножением матриц w(t) = (Ψ)-1 ⋅ c(t), где w(t) - вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ - модовая матрица положений виртуальных громкоговорителей, и c(t) - вектор соответствующих последовательностей коэффициентов HOA представления кадра данных HOA;
и при этом указанное представление (C(k)) кадра данных HOA нормализовано таким образом, что | | w ( t ) | | = max 1 j O | w j ( t ) | 1 t
Figure 00000112
;
при этом указанное устройство содержит:
- процессор, выполненный с возможностью формирования указанных сигналов каналов посредством
a) умножения указанного вектора последовательностей c(t) коэффициентов HOA на матрицу Α смешивания для представления доминирующих звуковых сигналов (x(t)) в указанных сигналах каналов, при этом матрица Α смешивания представляет линейную комбинацию последовательностей коэффициентов нормализованного представления кадра данных HOA;
b) вычитания доминирующих звуковых сигналов из нормализованного представления кадра данных HOA для представления компонента cAMB(t) окружающей среды в сигналах каналов и преобразования результирующего минимального компонента cAMB,MIN(t) окружающей среды путем вычисления w MIN ( t ) = Ψ MIN 1 c AMB ,MIN ( t )
Figure 00000113
, где | | Ψ MIN 1 | | 2 < 1
Figure 00000114
, и ΨMIN - модовая матрица для указанного минимального компонента cAMB,MIN(t) окружающей среды;
c) выбора части последовательностей c(t) коэффициентов HOA, которые относятся к последовательностям коэффициентов компонента окружающей среды HOA, к которым применено пространственное преобразование;
- при этом процессор дополнительно выполнен с возможностью определения целого числа βe битов исходя из
β e = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000115
,
где
Figure 00000116
, N – порядок, NMAX - максимальный порядок, представляющий интерес,
Figure 00000117
- направления указанных виртуальных громкоговорителей, O = (N + 1)2 - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
9. Устройство по п. 8, отличающееся тем, что в дополнение к указанному преобразованному минимальному компоненту окружающей среды непреобразованные последовательности коэффициентов окружающей среды компонента cAMB(t) окружающей среды включены в сигнал канала.
10. Устройство по любому из пп. 8, 9, отличающееся тем, что представления недифференцируемых значений (2e) коэффициентов усиления, связанных с указанными сигналами каналов из конкретных указанных кадров данных HOA, переданы в качестве дополнительной информации, при этом каждое из них представлено в виде βe битов.
11. Устройство по любому из пп. 8, 9, отличающееся тем, что целое число βe битов установлено как
Figure 00000118
, при этом
Figure 00000119
O служит для увеличения количества битов βe исходя из определения того, что амплитуды значений выборки сигнала канала перед регулятором усиления ниже порогового значения.
12. Устройство по любому из пп. 8, 9, отличающееся тем, что K MAX
Figure 00000107
=1,5.
13. Устройство по любому из пп. 8, 9, отличающееся тем, что указанная матрица Α смешивания определена таким образом, чтобы свести к минимуму евклидову норму остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов, полагая, что псевдоинверсия Мура-Пенроуза модовой матрицы сформирована из всех векторов, представляющих распределение по направлениям монофонических доминирующих звуковых сигналов.
14. Устройство по любому из пп. 8, 9, отличающееся тем, что процессор дополнительно выполнен с возможностью определения исходя из определения того, что положения O сигналов виртуальных громкоговорителей не совпадают с положениями, предполагаемыми для вычисления βe, включающего:
- вычисление модовой матрицы Ψ исходя из несовпадающих положений виртуальных громкоговорителей;
- вычисление евклидовой нормы ||Ψ||2 модовой матрицы;
- вычисление максимально допустимого значения амплитуды γ = min ( 1, O K MAX ,DES | | Ψ | | 2 )
Figure 00000108
, которое замещает максимально допустимую амплитуду в указанной нормализации,
при этом
Figure 00000120
, N – порядок, O = (N + 1)2 - число последовательностей коэффициентов HOA, K - отношение между квадратом евклидовой нормы указанной модовой матрицы и O, и где NMAX,DES - порядок, представляющий интерес, и
Figure 00000121
являются для каждого порядка направлениями виртуальных громкоговорителей, допускаемыми для реализации указанного сжатия указанного представления (C(k)) кадра данных HOA, так что βe выбрано в виде β e = log 2 ( log 2 ( K MAX ,DES O ) + 1 )
Figure 00000122
, для кодирования показателей (e) по основанию «2» указанных недифференцируемых значений коэффициентов усиления.
15. Способ декодирования сжатого звукового представления с помощью воспроизводящей аппаратуры более высокого порядка (НОА) звука или звукового поля, при этом способ включает:
прием битового потока, содержащего сжатое представление НОА, при этом битовый поток содержит ряд коэффициентов HOA, соответствующих сжатому представлению HOA; и
декодирование сжатого представления НОА исходя из наименьшего целого числа βe, при этом наименьшее целое число βe определяют исходя из β e = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000123
, где
Figure 00000116
, N – порядок, NMAX - максимальный порядок, представляющий интерес, Ω 1 ( N ) , , Ω O ( N )
Figure 00000104
- направления указанных виртуальных громкоговорителей, O = (N + 1)2 - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
16. Способ по п. 15, отличающийся тем, что KMAX=1,5.
17. Устройство декодирования сжатого звукового представления с помощью воспроизводящей аппаратуры более высокого порядка (НОА) звука или звукового поля, при этом устройство содержит:
процессор, выполненный с возможностью приема битового потока, содержащего сжатое представление НОА, при этом битовый поток содержит ряд коэффициентов HOA, соответствующих сжатому представлению HOA; и
процессор дополнительно выполнен с возможностью декодирования сжатого представления НОА исходя из наименьшего целого числа βe, при этом наименьшее целое число βe определено исходя из β e = log 2 ( log 2 ( K MAX O ) + 1 )
Figure 00000123
, где
Figure 00000116
, N – порядок, NMAX - максимальный порядок, представляющий интерес, Ω 1 ( N ) , , Ω O ( N )
Figure 00000104
- направления указанных виртуальных громкоговорителей, O = (N + 1)2 - число последовательностей коэффициентов HOA, и K - отношение между квадратом евклидовой нормы ||Ψ||2 2 указанной модовой матрицы и O.
18. Устройство по п. 17, отличающееся тем, что KMAX = 1,5.
RU2016151121A 2014-06-27 2015-06-22 Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa RU2725602C9 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14306023.4A EP2960903A1 (en) 2014-06-27 2014-06-27 Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP14306023.4 2014-06-27
PCT/EP2015/063912 WO2015197512A1 (en) 2014-06-27 2015-06-22 Method and apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2020115874A Division RU2802176C2 (ru) 2014-06-27 2015-06-22 Способ и устройство для декодирования сжатого звукового представления звука или звукового поля с помощью hoa

Publications (4)

Publication Number Publication Date
RU2016151121A RU2016151121A (ru) 2018-06-26
RU2016151121A3 RU2016151121A3 (ru) 2019-02-07
RU2725602C2 true RU2725602C2 (ru) 2020-07-02
RU2725602C9 RU2725602C9 (ru) 2020-08-28

Family

ID=51178839

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016151121A RU2725602C9 (ru) 2014-06-27 2015-06-22 Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa

Country Status (9)

Country Link
US (4) US10236003B2 (ru)
EP (3) EP2960903A1 (ru)
JP (3) JP6567571B2 (ru)
KR (3) KR102428370B1 (ru)
CN (4) CN106471580B (ru)
BR (2) BR122022022357B1 (ru)
RU (1) RU2725602C9 (ru)
TW (3) TWI820530B (ru)
WO (1) WO2015197512A1 (ru)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN107077852B (zh) 2014-06-27 2020-12-04 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
KR20240047489A (ko) * 2014-06-27 2024-04-12 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
CN111034225B (zh) * 2017-08-17 2021-09-24 高迪奥实验室公司 使用立体混响信号的音频信号处理方法和装置
CN116978387A (zh) * 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2421828C2 (ru) * 2006-07-31 2011-06-20 Квэлкомм Инкорпорейтед Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
WO2013176959A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
WO2014090660A1 (en) * 2012-12-12 2014-06-19 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE522453C2 (sv) 2000-02-28 2004-02-10 Scania Cv Ab Sätt och anordning för styrning av ett mekaniskt tillsatsaggregat i ett motorfordon
CN1677492A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP4809370B2 (ja) 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US7848280B2 (en) * 2007-06-15 2010-12-07 Telefonaktiebolaget L M Ericsson (Publ) Tunnel overhead reduction
WO2009001874A1 (ja) 2007-06-27 2008-12-31 Nec Corporation オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
CN102823277B (zh) 2010-03-26 2015-07-15 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
CN106471822B (zh) * 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN107077852B (zh) * 2014-06-27 2020-12-04 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
KR20240047489A (ko) * 2014-06-27 2024-04-12 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2421828C2 (ru) * 2006-07-31 2011-06-20 Квэлкомм Инкорпорейтед Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
WO2013176959A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
WO2014090660A1 (en) * 2012-12-12 2014-06-19 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Also Published As

Publication number Publication date
JP6567571B2 (ja) 2019-08-28
US20220270620A1 (en) 2022-08-25
KR20170023017A (ko) 2017-03-02
CN106471580A (zh) 2017-03-01
US20210193156A1 (en) 2021-06-24
US11875803B2 (en) 2024-01-16
BR122022022357B1 (pt) 2024-01-16
JP2019185065A (ja) 2019-10-24
TWI689916B (zh) 2020-04-01
KR20230124763A (ko) 2023-08-25
TW202238566A (zh) 2022-10-01
RU2020115874A (ru) 2020-06-18
JP2021103337A (ja) 2021-07-15
US10872612B2 (en) 2020-12-22
TW201603000A (zh) 2016-01-16
CN112908349A (zh) 2021-06-04
US20190214027A1 (en) 2019-07-11
BR122023009299B1 (pt) 2023-12-26
BR122018012705A2 (ru) 2017-08-22
BR122018012705A8 (pt) 2022-09-13
KR102428370B1 (ko) 2022-08-02
RU2725602C9 (ru) 2020-08-28
CN112908348B (zh) 2022-07-15
JP2017523456A (ja) 2017-08-17
WO2015197512A1 (en) 2015-12-30
KR102568636B1 (ko) 2023-08-22
BR112016029978A2 (pt) 2017-08-22
US11322165B2 (en) 2022-05-03
US20170133020A1 (en) 2017-05-11
CN112908348A (zh) 2021-06-04
EP3161820B1 (en) 2020-11-18
TWI749471B (zh) 2021-12-11
EP2960903A1 (en) 2015-12-30
KR20220110615A (ko) 2022-08-08
JP6869296B2 (ja) 2021-05-12
CN112951254A (zh) 2021-06-11
EP3161820A1 (en) 2017-05-03
US10236003B2 (en) 2019-03-19
CN106471580B (zh) 2021-03-05
TW202105364A (zh) 2021-02-01
RU2016151121A3 (ru) 2019-02-07
EP3809409A1 (en) 2021-04-21
TWI820530B (zh) 2023-11-01
RU2016151121A (ru) 2018-06-26

Similar Documents

Publication Publication Date Title
US10262670B2 (en) Method for decoding a higher order ambisonics (HOA) representation of a sound or soundfield
RU2725602C2 (ru) Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa
US10516958B2 (en) Method for decoding a higher order ambisonics (HOA) representation of a sound or soundfield
US10224044B2 (en) Method for determining for the compression and decompression of an HOA data frame representation
RU2802176C2 (ru) Способ и устройство для декодирования сжатого звукового представления звука или звукового поля с помощью hoa

Legal Events

Date Code Title Description
TH4A Reissue of patent specification
TH4A Reissue of patent specification