RU2778832C2 - Многоканальное кодирование аудио - Google Patents

Многоканальное кодирование аудио Download PDF

Info

Publication number
RU2778832C2
RU2778832C2 RU2021101191A RU2021101191A RU2778832C2 RU 2778832 C2 RU2778832 C2 RU 2778832C2 RU 2021101191 A RU2021101191 A RU 2021101191A RU 2021101191 A RU2021101191 A RU 2021101191A RU 2778832 C2 RU2778832 C2 RU 2778832C2
Authority
RU
Russia
Prior art keywords
itd
pair
parameter
frequency
comparison
Prior art date
Application number
RU2021101191A
Other languages
English (en)
Other versions
RU2021101191A (ru
Inventor
Ян БЮТЕ
Элени ФОТОПОУЛОУ
Срикантх КОРСЕ
Паллави МАБЕН
Маркус МУЛЬТРУС
Франц РОЙТЕЛЬХУБЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2021101191A publication Critical patent/RU2021101191A/ru
Application granted granted Critical
Publication of RU2778832C2 publication Critical patent/RU2778832C2/ru

Links

Images

Abstract

Изобретение относится к параметрическому многоканальному кодированию аудио. При многоканальном кодировании аудио достигается повышенная эффективность вычислений посредством вычисления параметров для сравнения для компенсации ITD между любыми двумя каналами в частотной области для параметрического аудиокодера. Это позволяет смягчать отрицательные последствия для оценок параметров кодера. 4 н. и 11 з.п. ф-лы, 3 ил., 2 табл.

Description

Настоящая заявка относится к параметрическому многоканальному кодированию аудио.
Способ из уровня техники для параметрического кодирования стереосигналов с потерями на низких скоростях передачи битов основан на параметрическом стерео согласно стандартизации в MPEG-4, часть 3 [1]. Общая идея состоит в уменьшении числа каналов многоканальной системы посредством вычисления сигнала понижающего микширования из двух входных каналов после извлечения стерео-/пространственных параметров, которые отправляются в декодер в качестве вспомогательной информации. Эти стерео-/пространственные параметры могут обычно содержать межканальную разность ILD уровней, межканальную разность IPD фаз и межканальную когерентность ICC, которые могут вычисляться в подполосах частот и которые в определенной степени захватывают пространственное изображение.
Однако этот способ не допускает компенсацию или синтезирование межканальных разностей времен (ITD), что является, например, желательным для понижающего микширования или воспроизведения речи, записанной с настройкой микрофонов AB, либо для синтезирования сцен, подготовленных посредством бинаурального рендеринга. Cинтез ITD рассматривается в бинауральном кодировании по сигнальным меткам (BCC) [2], которое, как правило, использует параметры ILD и ICC, в то время как оцениваются ITD и выполняется канальное совмещение в частотной области.
Хотя существуют модули оценки ITD во временной области, для оценки ITD обычно предпочтительно применять частотно-временное преобразование, которое обеспечивает спектральную фильтрацию взаимной корреляционной функции и также является вычислительно эффективным. По причинам сложности, желательно использовать одинаковые преобразования, которые также используются для извлечения стерео-/пространственных параметров и возможно для понижающего микширования каналов, что также достигается в подходе с BCC.
Тем не менее, это сопровождается недостатком: точная оценка стереопараметров в идеальном случае выполняется для совмещенных каналов. Но если каналы совмещаются в частотной области, например, посредством кругового сдвига в частотной области, это может вызывать смещение в окнах анализа, что может отрицательно влиять на оценки параметров. В случае BCC, это главным образом влияет на измерение ICC, причем увеличение смещений окна в конечном счете направляет значение ICC к нулю, даже если входные сигналы фактически являются полностью когерентными.
Таким образом, задача состоит в создании концепции для вычисления параметров в многоканальном кодировании аудио, которое допускает компенсацию межканальных разностей времен при недопущении отрицательных эффектов на оценки пространственных параметров.
Данная задача решается посредством объекта изобретения по независимым пунктам прилагаемой формулы изобретения.
Настоящая заявка основана на заключении о том, что в многоканальном кодировании аудио повышенная эффективность вычислений может достигаться посредством вычисления по меньшей мере одного параметра для сравнения для компенсации ITD между любыми двумя каналами в частотной области, которые должны использоваться посредством параметрического аудиокодера. Упомянутый по меньшей мере один параметр для сравнения может использоваться параметрическим кодером для смягчения вышеупомянутых отрицательных последствий для оценок пространственных параметров.
Вариант осуществления может содержать параметрический аудиокодер, который направлен на представление стерео- или в общем пространственного контента посредством по меньшей мере одного сигнала понижающего микширования и дополнительных стереопараметров или пространственных параметров. В числе этих стерео-/пространственных параметров могут быть предусмотрены ITD, которые могут оцениваться и компенсироваться в частотной области, до вычисления оставшихся стерео-/пространственных параметров. Эта процедура может смещать другие стерео-/пространственные параметры, что представляет собой проблему, которая в ином случае должна была бы решаться затратным способом путём повторного вычисления частотно-временного преобразования. В упомянутом варианте осуществления эта проблема может в достаточной степени смягчаться посредством применения вычислительно незатратной схемы коррекции, которая может использовать значение ITD и определенные данные базового преобразования.
Вариант осуществления относится к параметрическому аудиокодеру с потерями, который может быть основан на подходе на основе взвешенного среднего/бокового преобразования, может использовать стерео-/пространственные параметры IPD, ITD, а также два коэффициента усиления и может работать в частотной области. Другие варианты осуществления могут использовать другое преобразование и могут использовать другие пространственные параметры надлежащим образом.
В варианте осуществления, параметрический аудиокодер может быть способен как компенсировать, так и синтезировать ITD в частотной области. Он может содержать вычислительно эффективную схему коррекции усиления, которая смягчает отрицательные последствия вышеуказанного смещения окна. Также предлагается схема коррекции для кодера BCC.
Предпочтительные варианты реализации настоящей заявки являются предметом зависимых пунктов формулы изобретения. Предпочтительные варианты осуществления настоящей заявки описаны ниже с обращением к чертежам, на которых:
Фиг. 1 показывает блок-схему устройства сравнения для параметрического кодера согласно варианту осуществления настоящей заявки;
Фиг. 2 показывает блок-схему параметрического кодера согласно варианту осуществления настоящей заявки;
Фиг. 3 показывает блок-схему параметрического декодера согласно варианту осуществления настоящей заявки;
Фиг. 1 показывает устройство 100 сравнения для многоканального аудиосигнала. Как показано, оно может содержать ввод для аудиосигналов для пары стереоканалов, а именно, для сигнала l(τ) левого аудиоканала и сигнала r(τ) правого аудиоканала. Другие варианты осуществления, конечно, могут содержать множество каналов, чтобы захватывать пространственные свойства источников звука.
До преобразования аудиосигналов временной области l(τ), r(τ) в частотную область, одинаковые перекрывающиеся оконные функции 11, 21 w(τ) могут применяться к сигналам l(τ), r(τ) левого и правого входных каналов, соответственно. Кроме того, в вариантах осуществления, определенное значение дополнения нулями может добавляться, что обеспечивает сдвиги в частотной области. Затем прошедшие оконное преобразование аудиосигналы могут передаваться в соответствующие блоки 12, 22 дискретного преобразования Фурье (DFT), чтобы выполнять соответствующие частотно-временные преобразования. Они могут давать в результате частотно-временные элементы Lt,k и Rt,k разрешения,
Figure 00000001
, в качестве преобразований частоты аудиосигналов для пары каналов.
Упомянутые преобразования Lt,k и Rt,k частоты могут передаваться в блок 20 обнаружения и компенсации ITD. Он может быть выполнен с возможностью извлечения параметра ITD для представления ITD между аудиосигналами для пары каналов, здесь ITDt, с использованием преобразований Lt,k и Rt,k частоты аудиосигналов пары каналов в упомянутых окнах анализа w(τ). Другие варианты осуществления могут использовать другие подходы для извлечения параметра ITD, который также может определяться перед блоками DFT во временной области.
Извлечение параметра ITD для вычисления ITD может заключать в себе вычисление (возможно взвешенной) авто- или взаимной корреляционной функции. Традиционно, она может вычисляться из частотно-временных элементов Lt,k и Rt,k разрешения посредством применения обратного дискретного преобразования Фурье (IDFT) к члену
Figure 00000002
.
Надлежащий способ компенсации измеренной ITD состоит в выполнении совмещения каналов во временной области и затем в применении вновь того же самого частотно-временного преобразования к сдвинутому каналу(ам) для получения частотно-временных элементов разрешения с компенсацией ITD. Однако для снижения сложности эта процедура может аппроксимироваться посредством выполнения кругового сдвига в частотной области. Соответственно, компенсация ITD может выполняться посредством блока 20 обнаружения и компенсации ITD в частотной области, например, посредством выполнения круговых сдвигов посредством блоков 13 и 23 кругового сдвига, соответственно, что дает в результате:
Figure 00000003
(1)
и:
Figure 00000004
(2),
где ITDt может обозначать ITD для кадра t в выборках.
В варианте осуществления, это позволяет продвигать вперед отстающий канал и позволяет задерживать отстающий канал на ITDt/2 выборок. Тем не менее, в другом варианте осуществления (если задержка является критичной), может быть преимущественным только продвигать вперед отстающий канал на ITDt выборок, что не увеличивает задержку системы.
Как результат, блок 20 обнаружения и компенсации ITD может компенсировать ITD для пары каналов в частотной области посредством кругового сдвига(ов) с использованием параметра ITD ITDt для формирования пары преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD на выходе. Кроме того, блок 20 обнаружения и компенсации ITD может выводить извлеченный параметр ITD, а именно, ITDt, например, для передачи посредством параметрического кодера.
Как показано на фиг. 1, блок 30 вычисления параметров для сравнения и пространственных параметров может принимать параметр ITD ITDt и пару преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD в качестве своих входных сигналов. Блок 30 вычисления параметров для сравнения и пространственных параметров может использовать часть или все свои входные сигналы для того, чтобы извлекать стерео-/пространственные параметры многоканального аудиосигнала, такие как межфазная разность IPD.
Кроме того, блок 30 вычисления параметров для сравнения и пространственных параметров может формировать (на основании параметра ITD ITDt и пары преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD) по меньшей мере один параметр для сравнения, здесь два коэффициента gt,b и rt,b,corr усиления, для параметрического кодера. Другие варианты осуществления дополнительно или альтернативно могут использовать преобразования Lt,k, Rt,k частоты и/или пространственные/стереопараметры, извлеченные в блоке 30 вычисления параметров для сравнения и пространственных параметров, для того, чтобы формировать по меньшей мере один параметр для сравнения.
По меньшей мере, один параметр для сравнения может выступать в качестве части вычислительно эффективной схемы коррекции, чтобы смягчать отрицательные последствия вышеуказанного смещения в окнах анализа w(τ) для оценок пространственных/стереопараметров для параметрического кодера, причем упомянутое смещение вызывается посредством совмещения каналов посредством круговых сдвигов в области DFT в блоке 20 обнаружения и компенсации ITD. В варианте осуществления по меньшей мере один параметр для сравнения может вычисляться для восстановления аудиосигналов пары каналов в декодере, например, из сигнала понижающего микширования.
Фиг. 2 показывает вариант осуществления такого параметрического кодера 200 для стереоаудиосигналов, в котором устройство 100 сравнения по фиг. 1 может использоваться для получения параметра ITD ITDt, пары преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD и параметров
Figure 00000005
и gt,b для сравнения.
Параметрический кодер 200 может формировать сигнал DMXt,k понижающего микширования в блоке 40 понижающего микширования для сигналов l(τ), r(τ) левого и правого входных каналов с использованием преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD в качестве ввода. Другие варианты осуществления дополнительно или альтернативно могут использовать преобразования Lt,k, Rt,k частоты для того, чтобы формировать сигнал DMXt,k понижающего микширования.
Параметрический кодер 200 может вычислять стереопараметры (такие как, например, IPD) на основе кадров в блоке 30 вычисления параметров для сравнения и пространственных параметров. Другие варианты осуществления могут определять другие или дополнительные стерео-/пространственные параметры. Процедура кодирования варианта осуществления параметрического кодера 200 на фиг. 2 может примерно выполнять следующие этапы, которые подробно описываются ниже.
1. Частотно-временное преобразование входных сигналов с использованием прошедших оконное преобразование DFT
в блоках 11, 12, 21, 22 оконного преобразования и обработки DFT
2. Оценка и компенсация ITD в частотной области
в блоке 20 обнаружения и компенсации ITD
3. Извлечение стереопараметров и вычисление параметров для сравнения
в блоке 30 вычисления параметров для сравнения и пространственных параметров
4. Понижающее микширование
в блоке 40 понижающего микширования
5. Частотно-временное преобразование с последующим оконным преобразованием и суммированием с перекрытием
в блоке 50 IDFT
Вариант осуществления параметрического аудиокодера 200 на фиг. 2 может быть основан на взвешенном среднем/боковом преобразовании входных каналов в частотной области с использованием преобразований Lt,k,comp, Rt,k,comp частоты с компенсацией ITD, а также ITD в качестве ввода. Оно позволяет дополнительно вычислять стерео-/пространственные параметры, такие как IPD, а также два коэффициента усиления, захватывающие стереоизображение. Оно позволяет смягчать отрицательные последствия вышеуказанного смещения окна.
Для извлечения пространственных параметров в блоке 30 вычисления параметров для сравнения и пространственных параметров, частотно-временные элементы Lt,k,comp и Rt,k,comp разрешения с компенсацией ITD могут группироваться на подполосы частот, и для каждой подполосы частот могут вычисляться межфазная разность IPD и два коэффициента усиления. Пусть Ib обозначает индексы частотных элементов разрешения в подполосе b частот. В таком случае, IPD может вычисляться следующим образом:
Figure 00000006
(3).
Два вышеуказанных коэффициента усиления могут быть связаны с компенсированными по фазе средними/боковыми преобразованиями для каждой полосы частот пары преобразований Lt,k,comp и Rt,k,comp частоты с компенсацией ITD, заданных посредством уравнений (4) и (5) следующим образом:
Figure 00000007
(4)
и:
Figure 00000008
(5)
для
Figure 00000009
.
Первый коэффициент gt,b усиления из упомянутых коэффициентов усиления может рассматриваться в качестве оптимального усиления для прогнозирования для прогнозирования для каждой полосы частот преобразования St боковых сигналов из преобразования Mt средних сигналов в уравнении (6):
Figure 00000010
(6)
таким образом, что энергия остатка
Figure 00000011
прогнозирования в уравнении (6), задаваемая посредством уравнения (7) следующим образом:
Figure 00000012
, (7)
является минимальной. Этот первый коэффициент gt,b усиления может упоминаться как боковое усиление.
Второй коэффициент rt,b усиления описывает отношение энергии остатка
Figure 00000011
прогнозирования к энергии преобразования Mt,k средних сигналов, заданной посредством уравнения (8) следующим образом:
Figure 00000013
, (8)
и может упоминаться как остаточное усиление. Остаточное усиление rt,b может использоваться в декодере, например, в варианте осуществления декодера на фиг. 3, для формирования подходящей замены для остатка
Figure 00000011
прогнозирования.
В варианте осуществления кодера, показанном на фиг. 2, оба коэффициента gt,b и rt,b усиления могут вычисляться в качестве параметров для сравнения в блоке 30 вычисления параметров для сравнения и пространственных параметров с использованием энергий
Figure 00000014
и
Figure 00000015
преобразований Lt,k,comp и Rt,k,comp частоты с компенсацией ITD, заданных в уравнениях (9) следующим образом:
Figure 00000016
(9)
и абсолютного значения их внутреннего произведения:
Figure 00000017
, (10)
заданного в уравнении (10).
На основе упомянутых энергий
Figure 00000014
и
Figure 00000015
вместе с внутренним произведением
Figure 00000018
, коэффициент gt,b бокового усиления может вычисляться с использованием уравнения (11) следующим образом:
Figure 00000019
(11).
Кроме того, коэффициент rt,b остаточного усиления может вычисляться на основе упомянутых энергий
Figure 00000014
и
Figure 00000015
вместе с внутренним произведением
Figure 00000018
и коэффициента gt,b бокового усиления с использованием уравнения (12) следующим образом:
Figure 00000020
(12).
В других вариантах осуществления, другие подходы и/или уравнения могут использоваться для того, чтобы вычислять коэффициент gt,b бокового усиления и коэффициент rt,b остаточного усиления и/или другие параметры для сравнения надлежащим образом.
Как упомянуто выше, компенсация ITD в частотной области, как правило, снижает сложность, но без дополнительных мер это сопровождается недостатком. В идеальном случае, для чистой безэховой речи, записанной с помощью AB-компоновки микрофонов, сигнал l(τ) левого канала фактически представляет собой задержанную (посредством задержки d) и масштабированную (посредством усиления c) версию сигнала r(τ) правого канала. Эта ситуация может выражаться посредством следующего уравнения (13), в котором:
Figure 00000021
(13).
После надлежащей компенсации ITD не прошедших оконное преобразование входных канальных аудиосигналов l(τ) и r(τ), оценка для коэффициента gt,b бокового усиления должна задаваться в уравнении (14) следующим образом:
Figure 00000022
(14)
с исчезающим коэффициентом rt,b остаточного усиления, заданным следующим образом:
Figure 00000023
(15).
Тем не менее, если канальное совмещение выполняется в частотной области, аналогично варианту осуществления на фиг. 2, посредством блока 20 обнаружения и компенсации ITD с использованием блоков 13 и 23 кругового сдвига, соответственно, надлежащие окна анализа w(τ) DFT также сдвигаются по кругу. Таким образом, после компенсации ITD в частотной области, преобразование частоты Rt,k,comp с компенсацией ITD для правого канала может определяться в форме частотно-временных элементов разрешения посредством DFT:
Figure 00000024
(16),
тогда как преобразование Lt,k,comp частоты с компенсацией ITD для левого канала может определяться в форме частотно-временных элементов разрешения в качестве DFT:
Figure 00000025
(17),
где w является окном анализа DFT.
Обнаружено, что такое канальное совмещение в частотной области главным образом влияет на коэффициент rt,b остаточного усиления прогнозирования, который растет с увеличением ITDt. Без дополнительных мер, канальное совмещение в частотной области в силу этого должно добавлять дополнительное объемное окружение в выходной аудиосигнал в декодере, как показано на фиг. 3. Это дополнительное объемное окружение является нежелательным, в частности, когда аудиосигнал, который должен кодироваться, содержит чистую речь, поскольку искусственное объемное окружение ухудшает понятность речи.
Следовательно, вышеописанное последствие может смягчаться посредством коррекции коэффициента rt,b остаточного усиления (прогнозирования) при наличии ненулевых ITD с использованием дополнительного параметра для сравнения.
В варианте осуществления, это может осуществляться посредством вычисления смещения усиления для остаточного усиления rt,b, которое направлено на согласование с ожидаемым остаточным сигналом e(τ), когда сигнал является когерентным и временно плоским. В этом случае, предполагается глобальное усиление
Figure 00000026
для прогнозирования, заданное посредством уравнения (18) следующим образом:
Figure 00000027
(18)
и исчезающая глобальная
Figure 00000028
, заданная посредством
Figure 00000029
. Следовательно, ожидаемый остаточный сигнал e(τ) может определяться с использованием уравнения (19) следующим образом:
Figure 00000030
(19).
В варианте осуществления, дополнительный параметр для сравнения, помимо коэффициента gt,b бокового усиления и коэффициента rt,b остаточного усиления, может вычисляться на основе ожидаемого остаточного сигнала e(τ) в блоке 30 вычисления параметров для сравнения и пространственных параметров с использованием параметра ITD ITDt и функции, равной или аппроксимирующей автокорреляционную функцию
Figure 00000031
для окна анализа w, заданной в уравнении (20) следующим образом:
Figure 00000032
(20).
Если Mr обозначает кратковременное среднее значение
Figure 00000033
, энергия ожидаемого остаточного сигнала e(τ) может приблизительно вычисляться посредством уравнения (21) следующим образом:
Figure 00000034
(21).
С прошедшим оконное преобразование средним сигналом, заданным посредством уравнения (22) следующим образом:
Figure 00000035
(22),
энергия этого прошедшего оконное преобразование среднего сигнала
Figure 00000036
может аппроксимироваться посредством уравнения (23) следующим образом:
Figure 00000037
(23).
В варианте осуществления, вышеуказанная функция, используемая при вычислении параметра для сравнения в блоке 30 вычисления параметров для сравнения и пространственных параметров, равна или аппроксимирует нормализованную версию
Figure 00000038
автокорреляционной функции
Figure 00000039
для окна анализа, заданную в уравнении (23a) следующим образом:
Figure 00000040
(23a).
На основе этой нормализованной автокорреляционной функции
Figure 00000038
, упомянутый дополнительный параметр
Figure 00000041
для сравнения может вычисляться с использованием уравнения (24) следующим образом:
Figure 00000042
(24)
для получения оцененного параметра коррекции для остаточного усиления rt,b. В варианте осуществления, параметр
Figure 00000041
для сравнения может использоваться в качестве оценки для локальных остаточных усилений rt,b в подполосах b частот. В другом варианте осуществления, коррекция остаточных усилений rt,b может затрагиваться посредством использования параметра
Figure 00000041
для сравнения в качестве смещения. Иными словами, значения остаточного усиления rt,b могут заменяться посредством скорректированного остаточного усиления rt,b,corr, заданного в уравнении (25) следующим образом:
Figure 00000043
(25).
Таким образом, в варианте осуществления, дополнительный параметр для сравнения, вычисленный в блоке 30 вычисления параметров для сравнения и пространственных параметров, может содержать скорректированное остаточное усиление rt,b,corr, которое соответствует остаточному усилению rt,b, скорректированному посредством параметра
Figure 00000041
коррекции остаточного усиления, заданного в уравнении (24) в форме смещения, заданного в уравнении (25).
Следовательно, дополнительный вариант осуществления относится к параметрическому кодированию аудио с использованием прошедшего оконное преобразование DFT и [поднабора] параметров IPD согласно уравнению (3), бокового усиления gt,b согласно уравнению (11), остаточного усиления rt,b согласно уравнению (12) и ITD, при этом остаточное усиление rt,b регулируется согласно уравнению (25).
При эмпирической оценке, оценки
Figure 00000041
остаточного усиления могут тестироваться с различными вариантами выбора для правого канального аудиосигнала r(τ) в уравнении (13). Для входных сигналов r(τ) белого шума, которые удовлетворяют предположению по временной равномерности, оценки
Figure 00000041
остаточного усиления являются достаточно близкими к среднему остаточных усилений rt,b, измеренных в подполосах частот, как показано на нижеприведенной таблице 1.
ITD\c 1 2 4 8 16 32
мс 0,0893 0,0793 0,0569 0,0351 0,0196 0,0104
(0,0885) (0,0785) (0,0565) (0,0349) (0,0195) (0,0104)
мс 0,1650 0,1460 0,1045 0,0640 0,0357 0,0189
(0,1631) (0,1458) (0,1039) (0,0640) (0,0357) (0,0189)
мс 0,2348 0,2073 0,1472 0,0896 0,0498 0,0263
(0,2327) (0,2062) (0,1473) (0,0904) (0,0504) (0,0267)
мс 0,3005 0,2644 0,1862 0,1125 0,0621 0,0327
(0,2992) (0,2627) (0,1885) (0,1151) (0,0641) (0,0339)
Таблица 1. Среднее измеренных остаточных усилений rt,b для панорамированного белого шума с ITD и оценками
Figure 00000041
остаточного усиления (указаны в скобках).
Для речевых сигналов r(τ), часто нарушается предположение временной равномерности, что типично увеличивает среднее остаточных усилений rt,b (см. нижеприведенную таблицу 2 в сравнении с вышеприведенной таблицей 1). Способ регулирования остаточного усиления или коррекции согласно уравнению (25) в силу этого может считаться достаточно консервативным. Тем не менее, он по-прежнему позволяет удалять большую часть нежелательного объемного окружения для записей чистой речи.
ITD\c 1 2 4
мс 0,1055 0,1022 0,0874
(0,0885) (0,0785) (0,0565)
мс 0,1782 0,1634 0,1283
(0,1631) (0,1458) (0,1039)
мс 0,2435 0,2191 0,1657
(0,2327) (0,2062) (0,1473)
мс 0,3050 0,2720 0,2014
(0,2992) (0,2627) (0,1885)
Таблица 2. Среднее измеренных остаточных усилений rt,b для панорамированной моноречи с ITD и оценками
Figure 00000041
остаточного усиления (указаны в скобках).
Нормализованная автокорреляционная функция
Figure 00000044
, заданная в уравнении (23a), может считаться независимой от индекса t кадра в случае, если используется одно окно анализа w. Кроме того, нормализованная автокорреляционная функция
Figure 00000044
может считаться варьирующейся очень медленно для типичных окон анализа w. Следовательно,
Figure 00000044
может интерполироваться точно из небольшой таблицы значений, что обеспечивает высокую эффективность этой схемы коррекции с точки зрения сложности.
Таким образом, в вариантах осуществления, функция для определения оценок остаточного усиления или смещения
Figure 00000041
коррекции остаточного усиления в качестве параметра для сравнения в блоке 30, может получаться посредством интерполяции нормализованной версии
Figure 00000044
автокорреляционной функции для окна анализа, сохраненного в таблице поиска. В другом варианте осуществления, другие подходы для интерполяции нормализованной автокорреляционной функции
Figure 00000044
могут использоваться надлежащим образом.
Для BCC, как описано в [2], аналогичная проблема может возникать при оценке межканальной когерентности ICC в подполосах частот. В варианте осуществления, соответствующая
Figure 00000045
может оцениваться посредством уравнения (26) с использованием энергий
Figure 00000014
и
Figure 00000015
уравнения (9) и внутреннего произведения уравнения (10) следующим образом:
Figure 00000046
(26).
По определению, ICC измеряется после компенсации ITD. Тем не менее, несовпадающие оконные функции w могут смещать ICC-измерение. В вышеуказанной настройке чистой безэховой речи, описанной посредством уравнения (13), ICC должна быть равна 1 при вычислении для надлежащим образом совмещенных входных каналов.
Тем не менее, смещение, вызываемое посредством вращения окон анализа w(τ) в частотной области при компенсации ITD ITDt в частотной области посредством кругового сдвига(ов), может смещать измерение ICC к
Figure 00000047
, заданной в уравнении (27) следующим образом:
Figure 00000048
(27).
В варианте осуществления, смещение ICC может корректироваться аналогично по сравнению с коррекцией остаточного усиления rt,b в уравнении (25), а именно, посредством проведения замены, заданной в уравнении (28) следующим образом:
Figure 00000049
(28).
Таким образом, дополнительный вариант осуществления относится к параметрическому кодированию аудио с использованием прошедшего оконное преобразование DFT и [поднабора] параметров IPD согласно уравнению (3), ILD, ICC согласно уравнению (26) и ITD, при этом ICC регулируется согласно уравнению (28).
В варианте осуществления параметрического кодера 200, показанного на фиг. 2, блок 40 понижающего микширования может уменьшать число каналов многоканальной, здесь стерео-, системы посредством вычисления сигнала DMXt,k понижающего микширования, заданного посредством уравнения (29) в частотной области. В варианте осуществления, сигнал DMXt,k понижающего микширования может вычисляться с использованием преобразований Lt,k,comp и Rt,k,comp частоты с компенсацией ITD согласно следующему:
Figure 00000050
(29).
В уравнении (29), β может представлять собой параметр регулирования реальной абсолютной фазы, вычисленный из стерео-/пространственных параметров. В других вариантах осуществления, схема кодирования, как показано на фиг. 2, также может работать с любым другим способом понижающего микширования. Другие варианты осуществления могут использовать преобразования Lt,k и Rt,k частоты и необязательно дополнительные параметры для того, чтобы определять сигнал DMXt,k понижающего микширования.
В варианте осуществления кодера по фиг. 2, блок 50 обратного дискретного преобразования Фурье (IDFT) может принимать сигнал DMXt,k понижающего микширования в частотной области из блока 40 понижающего микширования. блок 50 IDFT может преобразовывать частотно-временные элементы DMXt,k разрешения для понижающего микширования,
Figure 00000001
, из частотной области во временную область, что дает в результате сигнал dmx(τ) понижающего микширования во временной области. В вариантах осуществления, синтезирующая оконная функция ws(τ) может применяться и суммироваться с сигналом dmx(τ) понижающего микширования во временной области.
Кроме того, аналогично варианту осуществления на фиг. 2, базовый кодер 60 может принимать сигнал dmx(τ) понижающего микширования в области, чтобы кодировать одноканальный аудиосигнал согласно MPEG-4, часть 3 [1] или любому другому подходящему алгоритму кодирования аудио надлежащим образом. В варианте осуществления по фиг. 2, подвергнутый базовому кодированию сигнал dmx(τ) понижающего микширования во временной области может комбинироваться с параметром ITD ITDt, боковым усилением gt,b и скорректированным остаточным усилением rt,b,corr, надлежащим образом обработанными и/или дополнительно кодированными для передачи в декодер.
Фиг. 3. показывает вариант осуществления многоканального декодера. Декодер может принимать комбинированный сигнал, содержащий входной сигнал dmx(τ) моно/понижающего микширования во временной области и параметры для сравнения и/или пространственные параметры в качестве вспомогательной информации на основе кадров. Декодер, как показано на фиг. 3, может выполнять следующие этапы, которые подробно описываются ниже.
1. Частотно-временное преобразование ввода с использованием прошедших оконное преобразование DFT
в блоке 80 DFT
2. Прогнозирование отсутствующего остатка в частотной области
в блоке 90 повышающего микширования и пространственного восстановления
3. Повышающее микширование в частотной области
в блоке 90 повышающего микширования и пространственного восстановления
4. Синтез ITD в частотной области
в блоке 100 синтеза ITD
5. Преобразование из частотной во временную область, оконное преобразование и суммирование с перекрытием
в блоках 112, 122 IDFT и блоках 111, 121 оконного преобразования
Частотно-временное преобразование входного сигнала dmx(τ) моно/понижающего микширования может выполняться аналогично входным аудиосигналам кодера на фиг. 2. В конкретных вариантах осуществления, подходящее значение дополнения нулями может добавляться для восстановления ITD в частотной области. Эта процедура может давать в результате преобразование частоты сигнала понижающего микширования в форме частотно-временных элементов DMXt,k разрешения,
Figure 00000001
.
Чтобы восстанавливать пространственные свойства сигнала DMXt,k понижающего микширования, может требоваться второй сигнал, независимый от передаваемого сигнала DMXt,k понижающего микширования. Этот сигнал, например, может (ре)конструироваться в блоке 90 повышающего микширования и пространственного восстановления с использованием скорректированного остаточного усиления rt,b,corr в качестве параметра для сравнения (передаваемого посредством кодера, такого как кодер на фиг. 2) и частотно-временных элементов разрешения с временной задержкой сигнала DMXt,k понижающего микширования, заданных в уравнении (30):
Figure 00000051
(30)
для
Figure 00000009
.
В других вариантах осуществления, другие подходы и уравнения могут использоваться для того, чтобы восстанавливать пространственные свойства сигнала DMXt,k понижающего микширования на основе передаваемого по меньшей мере одного параметра для сравнения.
Кроме того, блок 90 повышающего микширования и пространственного восстановления может выполнять повышающее микширование посредством применения инверсии к среднему/боковому преобразованию в кодере с использованием сигнала DMXt,k понижающего микширования и бокового усиления gt,b, передаваемых посредством кодера, а также восстановленного остаточного сигнала
Figure 00000052
. Это может давать в результате декодированные преобразования
Figure 00000053
и
Figure 00000054
частоты с компенсацией ITD, заданные посредством уравнений (31) и (32) следующим образом:
Figure 00000055
(31)
и:
Figure 00000056
(32)
для
Figure 00000009
, где β является параметром абсолютного вращения фаз, равным параметру в процедуре понижающего микширования в уравнении (29)
Кроме того, как показано на фиг. 3, декодированные преобразования
Figure 00000053
и
Figure 00000054
частоты с компенсацией ITD могут приниматься посредством блока 100 синтеза/декомпенсации ITD. Он может применять параметр ITD ITDt в частотной области посредством вращения
Figure 00000057
и
Figure 00000054
, как задано в уравнениях (33) и (34), что дает в результате декодированные преобразования
Figure 00000058
и
Figure 00000059
частоты с декомпенсацией ITD:
Figure 00000060
(33)
и:
Figure 00000061
(34).
На фиг. 3, преобразование из частотной во временную область декодированных преобразований частоты с декомпенсацией ITD в форме частотно-временных элементов
Figure 00000058
и
Figure 00000059
разрешения,
Figure 00000001
, может выполняться посредством блоков 112 и 122 IDFT, соответственно. Результирующие сигналы временной области затем могут подвергаться оконному преобразованию посредством блоков 111 и 121 оконного преобразования, соответственно, и суммироваться с восстановленными выходными аудиосигналами
Figure 00000062
и
Figure 00000063
временной области левого и правого аудиоканала.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Библиографический список
[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2.
[2] Jürgen Herre "FROM JOINT STEREO TO SPATIAL AUDIO CODING – RECENT PROGRESS AND STANDARDIZATION", Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Неаполь, Италия, 5-8 октября 2004 года.
[3] Christoph Tourney и Christof Faller "Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding", AES Convention Paper 6753, 2006 год.
[4] Christof Faller и Frank Baumgarte "Binaural Cue Coding Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, ноябрь 2003 года.

Claims (38)

1. Устройство сравнения для многоканального аудиосигнала, выполненное с возможностью:
- извлечения для межканальной разности времен (ITD) между аудиосигналами по меньшей мере для одной пары каналов по меньшей мере одного параметра ITD (ITDt) аудиосигналов для по меньшей мере одной пары каналов в окне анализа (w(τ)),
- компенсации ITD по меньшей мере для одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары преобразований (Lt,k,comp; Rt,k,comp) частоты с компенсацией ITD,
- вычисления на основании по меньшей мере одного параметра ITD и по меньшей мере одной пары преобразований частоты с компенсацией ITD по меньшей мере одного параметра
Figure 00000064
для сравнения.
2. Устройство сравнения по п. 1, дополнительно выполненное с возможностью использования преобразования (Lt,k; Rt,k) частоты аудиосигналов по меньшей мере для одной пары каналов в окне анализа (w(τ)) для извлечения по меньшей мере одного параметра ITD (ITDt).
3. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:
- вычисления по меньшей мере одного параметра для сравнения с использованием функции, равной или аппроксимирующей автокорреляционную функцию
Figure 00000065
для окна анализа и по меньшей мере одного параметра ITD.
4. Устройство сравнения по п. 3, в котором:
- функция равна или аппроксимирует нормализованную версию автокорреляционной функции
Figure 00000066
для окна анализа.
5. Устройство сравнения по п. 4, дополнительно выполненное с возможностью:
- получения функции посредством интерполяции нормализованной версии автокорреляционной функции для окна анализа, сохраненной в таблице поиска.
6. Устройство сравнения по п. 1, в котором:
- по меньшей мере один параметр для сравнения содержит по меньшей мере одно боковое усиление (gt,b) по меньшей мере одной пары среднего/бокового преобразований (Mt,k; St,k) для по меньшей мере одной пары преобразований (Lt,k,comp; Rt,k,comp) частоты с компенсацией ITD, причем по меньшей мере одно боковое усиление представляет собой усиление
Figure 00000067
для прогнозирования бокового преобразования (St,k) из среднего преобразования (Mt,k) по меньшей мере из одной пары среднего/бокового преобразований.
7. Устройство сравнения по п. 6, в котором:
- по меньшей мере один параметр для сравнения содержит по меньшей мере одно скорректированное остаточное усиление (rt,b,corr), соответствующее по меньшей мере одному остаточному усилению (rt,b), скорректированному посредством параметра
Figure 00000068
коррекции остаточного усиления, причем по меньшей мере одно остаточное усиление (rt,b) представляет собой функцию энергии остатка
Figure 00000069
в прогнозировании бокового преобразования (St,k) из среднего преобразования (Mt,k) относительно энергии среднего преобразования:
Figure 00000070
.
8. Устройство сравнения по п. 7, дополнительно выполненное с возможностью:
- вычисления по меньшей мере одного бокового усиления и по меньшей мере одного остаточного усиления с использованием энергий и внутреннего произведения по меньшей мере одной пары преобразований (Lt,k,comp; Rt,k,comp) частоты с компенсацией ITD.
9. Устройство сравнения по п. 7, дополнительно выполненное с возможностью:
- коррекции по меньшей мере одного остаточного усиления посредством смещения, соответствующего параметру
Figure 00000071
коррекции остаточного усиления, вычисленному как
Figure 00000072
, при этом:
c является усилением масштабирования между аудиосигналами по меньшей мере одной пары каналов, и
Figure 00000073
является функцией, аппроксимирующей нормализованную версию автокорреляционной функции для окна анализа.
10. Устройство сравнения по п. 1, в котором:
- по меньшей мере один параметр для сравнения содержит по меньшей мере один параметр
Figure 00000074
коррекции межканальной когерентности (ICC) для коррекции оценки (ICCB, t) ICC, определенной в частотной области для по меньшей мере одной пары аудиосигналов на основании по меньшей мере одного параметра ITD.
11. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:
- формирования по меньшей мере одного сигнала понижающего микширования для аудиосигналов по меньшей мере одной пары каналов, при этом по меньшей мере один параметр
Figure 00000064
для сравнения вычисляется для восстановления аудиосигналов по меньшей мере одной пары каналов по меньшей мере из одного сигнала понижающего микширования.
12. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:
- формирования по меньшей мере одного сигнала понижающего микширования на основании по меньшей мере одной пары преобразований частоты с компенсацией ITD.
13. Многоканальный кодер, содержащий устройство сравнения по п. 11, дополнительно выполненный с возможностью:
- кодирования по меньшей мере одного сигнала понижающего микширования, по меньшей мере одного параметра ITD и по меньшей мере одного параметра для сравнения для передачи в декодер.
14. Декодер для многоканальных аудиосигналов, выполненный с возможностью:
- декодирования по меньшей мере одного сигнала понижающего микширования, по меньшей мере одного параметра межканальной разности времен (ITD) и по меньшей мере одного параметра
Figure 00000075
для сравнения, принимаемые от кодера,
- повышающего микширования по меньшей мере одного сигнала понижающего микширования для восстановления аудиосигналов по меньшей мере одной пары каналов из по меньшей мере одного сигнала понижающего микширования с использованием по меньшей мере одного параметра для сравнения для формирования по меньшей мере одной пары декодированных преобразований
Figure 00000076
частоты с компенсацией ITD,
- декомпенсации ITD по меньшей мере для одной пары декодированных преобразований
Figure 00000076
частоты с компенсацией ITD по меньшей мере одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары декодированных преобразований частоты с декомпенсацией ITD для восстановления ITD аудиосигналов по меньшей мере одной пары каналов во временной области,
- выполнения обратного преобразования частоты по меньшей мере для одной пары декодированных преобразований частоты с декомпенсацией ITD для формирования по меньшей мере одной пары декодированных аудиосигналов по меньшей мере одной пары каналов.
15. Способ сравнения для многоканального аудиосигнала, содержащий этапы, на которых:
- извлекают для межканальной разности времен (ITD) между аудиосигналами по меньшей мере для одной пары каналов по меньшей мере один параметр ITD (ITDt) аудиосигналов по меньшей мере одной пары каналов в окне анализа (w(τ)),
- компенсируют ITD по меньшей мере для одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары преобразований (Lt,k,comp; Rt,k,comp) частоты с компенсацией ITD,
- вычисляют на основании по меньшей мере одного параметра ITD и по меньшей мере одной пары преобразований частоты с компенсацией ITD по меньшей мере один параметр
Figure 00000064
для сравнения.
RU2021101191A 2018-06-22 2019-06-19 Многоканальное кодирование аудио RU2778832C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18179373.8 2018-06-22

Publications (2)

Publication Number Publication Date
RU2021101191A RU2021101191A (ru) 2022-07-22
RU2778832C2 true RU2778832C2 (ru) 2022-08-25

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
WO2018086947A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
WO2018086947A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
US10136237B2 (en) Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
AU2019291054B2 (en) Multichannel audio coding
JP6069208B2 (ja) 逆位相のチャネルに対する、改善されたステレオパラメトリック符号化/復号
RU2512124C2 (ru) Бинауральная визуализация мультиканального звукового сигнала
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
CN108369810B (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
KR20180016417A (ko) 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법
JP2023017913A5 (ru)
EP3405950B1 (en) Stereo audio coding with ild-based normalisation prior to mid/side decision
RU2778832C2 (ru) Многоканальное кодирование аудио
KR101259120B1 (ko) 오디오 신호 처리 방법 및 장치