RU2016151121A

RU2016151121A - Способ и устройство для определения наименьшего целого числа битов, требуемого для представления недифференцируемых значений коэффициентов усиления, для сжатия представления кадра данных hoa

Info

Publication number: RU2016151121A
Application number: RU2016151121A
Authority: RU
Inventors: Свен КОРДОН; Александр КРЮГЕР
Original assignee: Долби Интернешнл Аб
Priority date: 2014-06-27
Filing date: 2015-06-22
Publication date: 2018-06-26
Also published as: CN112908349A; EP3161820B1; KR20230124763A; RU2016151121A3; BR122018012705A8; JP6869296B2; JP6567571B2; US20240212692A1; US10236003B2; TW202431250A; TW202238566A; US10872612B2; CN112951254A; KR20170023017A; JP2021103337A; WO2015197512A1; TWI820530B; BR122023009299B1; JP2017523456A; US20190214027A1

Claims

1. Способ определения сжатия представления (C(k)) кадра данных HOA наименьшего целого числа β_e битов для описания представлений недифференцируемых значений коэффициентов усиления, соответствующих изменениям амплитуды в качестве показателя «два» () для сигналов каналов кадров данных HOA, в котором каждый сигнал канала в каждом кадре содержит группу значений выборки и в котором каждому сигналу (y₁(k – 2), … , y_I(k – 2)) канала каждого одного из кадров данных HOA присваивают дифференцируемое значение коэффициента усиления, при этом дифференцируемое значение коэффициента усиления вызывает изменение амплитуд (15, 151) первых значений выборки сигнала канала в текущем кадре ((k – 2)) данных HOA по отношению ко вторым значениям выборки сигнала канала в предыдущем кадре ((k – 3)) данных HOA, и при этом результирующие сигналы каналов с адаптированным коэффициентом усиления кодируют в кодирующем устройстве (16);

и при этом представление кадра данных HOA выполняют в пространственной области для O сигналов w_j(t) виртуальных громкоговорителей, при этом положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере, при этом указанное воспроизведение представляют произведением матриц w(t) = (Ψ)^-1 ⋅ c(t), где w(t) – вектор, содержащий все сигналы виртуальных громкоговорителей, Ψ – модовая матрица виртуальных положений громкоговорителей, и c(t) – вектор соответствующих последовательностей коэффициентов HOA представления кадра данных HOA;

и при этом указанное представление (C(k)) (C(k)) кадра данных HOA нормализуют таким образом, что

| | w (t) | |_{\infty} = max_{1 \leq j \leq O} | w_{j} (t) | \leq 1 \forall t

,

при этом способ включает:

- формирование сигналов каналов посредством:

a) умножения вектора последовательностей c(t) коэффициентов HOA на матрицу смешивания Α для представления доминирующих звуковых сигналов (x(t)) в сигналах каналов, при этом матрица смешивания Α представляет линейную комбинацию последовательностей коэффициентов нормализованного представления кадра данных HOA;

b) вычитания доминирующих звуковых сигналов из нормализованного представления кадра данных HOA для представления компонента c_AMB(t) окружающей среды в сигналах каналов, и преобразования результирующего минимального компонента c_AMB,MIN(t) окружающей среды путем вычисления

w_{MIN} (t) = Ψ_{MIN}^{- 1} \cdot c_{AMB,MIN} (t)

, где

| | Ψ_{MIN}^{- 1} | |_{2} < 1

, и Ψ_MIN – модовая матрица для указанного минимального компонента c_AMB,MIN(t) окружающей среды;

c) выбора части последовательностей c(t) коэффициентов HOA, которые относятся к последовательностям коэффициентов компонента окружающей среды HOA, к которым применяют пространственное преобразование;

- определение целого числа β_e битов исходя из

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + 1) ⌉

,

где

K_{M A X} = max_{1 � N � N_{MAX}} K (N, Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)})

– порядок; N_MAX – максимальный порядок, представляющий интерес;

Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)}

– направления указанных виртуальных громкоговорителей; O = (N + 1)² – число последовательностей коэффициентов HOA; и K – отношение между квадратом евклидовой нормы ||Ψ||₂ ² указанной модовой матрицы и O.

2. Способ по п. 1, отличающийся тем, что в дополнение к указанному преобразованному минимальному компоненту окружающей среды непреобразованные последовательности коэффициентов окружающей среды компонента c_AMB(t) окружающей среды включают в сигнал (y₁(k – 2), … , y_I(k – 2)) канала.

3. Способ по пп. 1 или 2, отличающийся тем, что представления недифференцируемых значений (

2^{e}

) коэффициентов усиления, связанных с указанными сигналами каналов из конкретных указанных кадров данных HOA, передают в качестве дополнительной информации, при этом каждое из них представляют в виде β_e битов.

4. Способ по любому из пп. 1—2, отличающийся тем, что целое число β_eбитов устанавливают как

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + e_{max} + 1) ⌉

, где

e_{max}

≥0 служит для увеличения количества битов β_eисходя из определения того, что амплитуды значений выборки сигнала канала перед регулятором (15, 151) усиления ниже порогового значения.

5. Способ по любому из пп. 1—2, отличающийся тем, что

\sqrt{K_{MAX}}

=1,5.

6. Способ по любому из пп. 1—2, отличающийся тем, что указанную матрицу A смешивания определяют таким образом, чтобы свести к минимуму евклидову норму остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов, полагая, что псевдоинверсия Мура-Пенроуза модовой матрицы сформирована из всех векторов, представляющих распределение по направлениям монофонических доминирующих звуковых сигналов.

7. Способ по любому из пп. 1—2, отличающийся тем, что исходя из определения того, что положения O сигналов виртуальных громкоговорителей не совпадают с положениями, предполагаемыми для вычисления β_e, включающего:

- вычисление (51) модовой матрицы Ψ исходя из несовпадающих положений виртуальных громкоговорителей;

- вычисление (52) евклидовой нормы ||Ψ||₂ модовой матрицы;

- вычисление (53) максимально допустимого значения амплитуды

γ = \min (1, \frac{\sqrt{O} \cdot \sqrt{K_{MAX,DES}}}{| | Ψ | |_{2}})

, которое замещает максимально допустимую амплитуду в указанной нормализации;

при этом

K_{MAX,DES} = {max_{_{1 � N � N_{MAX,DES}}}}_{} K (N, Ω_{DES,1}^{(N)}, \dots, Ω_{DES, O}^{(N)})

; N – порядок; O = (N + 1)² – число последовательностей коэффициентов HOA; K – отношение между квадратом евклидовой нормы указанной модовой матрицы и O; и где N_MAX,DES – порядок, представляющий интерес, и

Ω_{DES,1}^{(N)}, \dots, Ω_{DES,1}^{(N)}

являются для каждого порядка направлениями виртуальных громкоговорителей, которые допускают для реализации указанного сжатия указанного представления (C(k)) кадра данных HOA, так что β_e выбирают в виде

β_{e} = ⌈ \log_{2} (⌈ \log_{2} (\sqrt{K_{MAX,DES}} \cdot O) ⌉ + 1) ⌉

, для кодирования показателей (e) по основанию «2» указанных недифференцируемых значений коэффициентов усиления.

8. Устройство для определения сжатия представления (C(k)) кадра данных HOA наименьшего целого числа β_e битов для описания представлений недифференцируемых значений коэффициентов усиления, соответствующих изменениям амплитуды в качестве показателя «два» () для сигналов каналов кадров данных HOA,

при этом каждый сигнал канала в каждом кадре содержит группу значений выборки и при этом каждому сигналу (y₁(k – 2), … , y_I(k – 2)) канала каждого одного из кадров данных HOA присвоено дифференцируемое значение коэффициента усиления, при этом дифференцируемое значение коэффициента усиления вызывает изменение амплитуд (15, 151) первых значений выборки сигнала канала в текущем кадре ((k – 2)) данных HOA по отношению ко вторым значениям выборки сигнала канала в предыдущем кадре ((k – 3)) данных HOA, и при этом результирующие сигналы каналов с адаптированным коэффициентом усиления кодированы в кодирующем устройстве (16);

и при этом представление (C(k)) кадра данных HOA выполнено в пространственной области для O сигналов w_j(t) виртуальных громкоговорителей, при этом положения виртуальных громкоговорителей лежат на единичной сфере и должны быть распределены равномерно по этой единичной сфере; при этом указанное выполнение представлено перемножением матриц w(t) = (Ψ)^-1 ⋅ c(t), где w(t) – вектор, содержащий все сигналы виртуальных громкоговорителей; Ψ – модовая матрица положений виртуальных громкоговорителей; и c(t) – вектор соответствующих последовательностей коэффициентов HOA представления кадра данных HOA;

и при этом указанное представление (C(k)) кадра данных HOA нормализовано таким образом, что

| | w (t) | |_{\infty} = max_{1 \leq j \leq O} | w_{j} (t) | \leq 1 \forall t

;

при этом указанное устройство содержит:

- средства (12, 13, 14), формирующие указанные сигналы (y₁(k – 2), … , y_I(k – 2)) каналов посредством:

a) умножения указанного вектора последовательностей c(t) коэффициентов HOA на матрицу смешивания Α для представления доминирующих звуковых сигналов (x(t)) в указанных сигналах каналов, при этом матрица смешивания Α представляет линейную комбинацию последовательностей коэффициентов нормализованного представления кадра данных HOA;

w_{MIN} (t) = Ψ_{MIN}^{- 1} \cdot c_{AMB,MIN} (t)

, где

| | Ψ_{MIN}^{- 1} | |_{2} < 1

c) выбора части последовательностей c(t) коэффициентов HOA, которые относятся к последовательностям коэффициентов компонента окружающей среды HOA, к которым применено пространственное преобразование;

- средства (15,..., 151), которые определяют целое число β_e битов исходя из

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + 1) ⌉

,

где

K_{M A X} = max_{1 � N � N_{MAX}} K (N, Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)})

Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)}

9. Устройство по п. 8, отличающееся тем, что в дополнение к указанному преобразованному минимальному компоненту окружающей среды непреобразованные последовательности коэффициентов окружающей среды компонента c_AMB(t) окружающей среды включены в сигнал (y₁(k – 2), … , y_I(k – 2)) канала.

10. Устройство по любому из пп. 8—9, отличающееся тем, что представления недифференцируемых значений (

2^{e}

) коэффициентов усиления, связанных с указанными сигналами каналов из конкретных указанных кадров данных HOA, переданы в качестве дополнительной информации, при этом каждое из них представлено в виде β_e битов.

11 Устройство по любому из пп. 8—9, отличающееся тем, что целое число β_e битов установлено как

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + e_{max} + 1) ⌉

, при этом

e_{max}

≥0 служит для увеличения количества битов β_e исходя из определения того, что амплитуды значений выборки сигнала канала перед регулятором (15, 151) усиления ниже порогового значения.

12. Устройство по любому из пп. 8—9, отличающееся тем, что

\sqrt{K_{MAX}}

=1,5.

13. Устройство по любому из пп. 8—9, отличающееся тем, что указанная матрица смешивания Α определена таким образом, чтобы свести к минимуму евклидову норму остатка между исходным представлением HOA и представлением доминирующих звуковых сигналов, полагая, что псевдоинверсия Мура-Пенроуза модовой матрицы сформирована из всех векторов, представляющих распределение по направлениям монофонических доминирующих звуковых сигналов.

14. Устройство по любому из пп. 8—9, отличающееся тем, что исходя из определения того, что положения O сигналов виртуальных громкоговорителей не совпадают с положениями, предполагаемыми для вычисления β_e, включающего:

γ = \min (1, \frac{\sqrt{O} \cdot \sqrt{K_{MAX,DES}}}{| | Ψ | |_{2}})

, которое замещает максимально допустимую амплитуду в указанной нормализации,

при этом

K_{MAX,DES} = {max_{_{1 � N � N_{MAX,DES}}}}_{} K (N, Ω_{DES,1}^{(N)}, \dots, Ω_{DES, O}^{(N)})

Ω_{DES,1}^{(N)}, \dots, Ω_{DES,1}^{(N)}

являются для каждого порядка направлениями виртуальных громкоговорителей, допускаемыми для реализации указанного сжатия указанного представления (C(k)) кадра данных HOA, так что β_e выбрано в виде

β_{e} = ⌈ \log_{2} (⌈ \log_{2} (\sqrt{K_{MAX,DES}} \cdot O) ⌉ + 1) ⌉

15. Кодированное представление

\overset{⌣}{B}

кадра данных HOA, содержащее недифференцируемые значения коэффициентов усиления, в которых наименьшее целое число (β_e) битов, требуемых для представления этих недифференцируемых значений коэффициентов усиления, определено согласно способу по одному из пп. 1—7.

16. Запоминающая среда, которая содержит, или хранит, или имеет записанное на ней кодированное представление (

\overset{⌣}{B}

) кадра данных HOA по п. 15.

17. Запоминающая среда, которая содержит, или хранит, или имеет записанный на ней компьютерный программный продукт, содержащий инструкции, которые при выполнении на компьютере выполняют способ по пп. 1—7.

18. Способ декодирования сжатого звукового представления с помощью воспроизводящей аппаратуры более высокого порядка (НОА) звука или звукового поля, при этом способ включает:

прием битового потока, содержащего сжатое представление НОА, при этом битовый поток содержит ряд коэффициентов HOA, соответствующих сжатому представлению HOA; и

декодирование сжатого представления НОА исходя из наименьшего целого числа β_e, при этом наименьшее целое число β_e определяют исходя из

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + 1) ⌉

, где

K_{M A X} = max_{1 � N � N_{MAX}} K (N, Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)})

Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)}

19. Способ по п. 18, отличающийся тем, что

\sqrt{K_{MAX}}

=1,5.

20. Устройство декодирования сжатого звукового представления с помощью воспроизводящей аппаратуры более высокого порядка (НОА) звука или звукового поля, при этом устройство содержит:

средства для приема битового потока, содержащего сжатое представление НОА, при этом битовый поток содержит ряд коэффициентов HOA, соответствующих сжатому представлению HOA; и

средства для декодирования сжатого представления НОА исходя из наименьшего целого числа β_e, при этом наименьшее целое число β_e определено исходя из

β_{e} = ⌈ \log_{2} (⌈ {log}_{2} (\sqrt{K_{MAX}} \cdot O) ⌉ + 1) ⌉

, где

K_{M A X} = max_{1 � N � N_{MAX}} K (N, Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)})

Ω_{1}^{(N)}, \dots, Ω_{O}^{(N)}

21. Устройство по п. 20, отличающееся тем, что

\sqrt{K_{MAX}}

=1,5.