RU2560788C2

RU2560788C2 - Устройство и способ для обработки декодированного аудиосигнала в спектральной области

Info

Publication number: RU2560788C2
Application number: RU2013142138/08A
Authority: RU
Inventors: Гийом ФУКС; Ральф ГАЙГЕР; Маркус ШНЕЛЛЬ; Эммануэль РАВЕЛЛИ; Штефан ДЕЛА
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2011-02-14
Filing date: 2012-02-10
Publication date: 2015-08-20
Also published as: TW201237848A; CN103503061B; HK1192048A1; SG192746A1; MY164797A; CA2827249C; ZA201306838B; KR101699898B1; TWI469136B; EP2676268B1; BR112013020482B1; JP2014510301A; CN103503061A; RU2013142138A; KR20130133843A; AR085362A1; WO2012110415A1; AU2012217269B2; CA2827249A1; ES2529025T3

Abstract

Изобретение относится к аудиообработке, а именно к обработке декодированного аудиосигнала. Технический результат заключается в обеспечении постобработки с низкой задержкой декодированного аудиосигнала. Технический результат достигается за счет устройства для обработки декодированного аудиосигнала, содержащего фильтр для фильтрации декодированного аудиосигнала, чтобы получать фильтрованный аудиосигнал, каскад преобразователя время-спектр для преобразования декодированного аудиосигнала и фильтрованного аудиосигнала в соответствующие спектральные представления, причем каждое спектральное представление имеет множество подполосных сигналов, модуль взвешивания для выполнения частотно-избирательного взвешивания фильтрованного аудиосигнала посредством умножения подполосных сигналов на соответствующие весовые коэффициенты, чтобы получать взвешенный фильтрованный аудиосигнал, модуль вычитания для выполнения вычитания по подполосам между взвешенным фильтрованным аудиосигналом и спектральным представлением декодированного аудиосигнала и преобразователь спектр-время для преобразования результирующего аудиосигнала или сигнала, извлекаемого из результирующего аудиосигнала, в представление во временной области, чтобы получать обработанный декодированный аудиосигнал. 3 н. и 13 з.п. ф-лы, 13 ил.

Description

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Настоящее изобретение относится к аудиообработке и, в частности, к обработке декодированного аудиосигнала в целях повышения качества.

В последнее время проводятся более глубокие исследования касательно переключаемых аудиокодеков. Высококачественный переключаемый аудиокодек с низкой скоростью передачи битов основан на принципе стандартизированного кодирования речи и аудио (USAC-принципе). Предусмотрена общая предварительная обработка/постобработка, состоящая из функционального модуля по стандарту объемного звучания MPEG (MPEGs), чтобы управлять стерео- или многоканальной обработкой, и модуля по стандарту усовершенствованной SBR (eSBR), который управляет параметрическим представлением верхних аудиочастот во входном сигнале. Далее, предусмотрены две ветви, одна из которых состоит из тракта для инструментального средства по стандарту усовершенствованного кодирования аудио (AAC), а другая состоит из тракта на основе линейного кодирования с предсказанием (в LP- или LPC-области), который, в свою очередь, показывает представление в частотной области или представление во временной области LPC-остатка. Все передаваемые спектры как для AAC, так и для LPC представляются в MDCT-области после квантования и арифметического кодирования. Представление во временной области использует схему кодирования с ACELP-возбуждением. Блок-схемы кодера и декодера приведены на фиг. 1.1 и фиг. 1.2 документа ISO/IEC CD 23003-3.

Дополнительным примером для переключаемого аудиокодека является кодек по стандарту усовершенствованного широкополосного адаптивного многоскоростного кодирования (AMR-WB+), как описано в 3GPP TS 26.290 V10.0.0 (2011-3). AMR-WB+-аудиокодек обрабатывает входные кадры, равные 2048 выборкам, на внутренней частоте F_s дискретизации. Внутренние частоты дискретизации ограничены диапазоном 12800-38400 Гц. Кадры из 2048 выборок разбиваются на две критически дискретизированные равные полосы частот. Это приводит к двум суперкадрам по 1024 выборок, соответствующим полосе низких частот (LF) и высоких частот (HF). Каждый суперкадр разделяется на четыре кадра из 256 выборок. Дискретизация на внутренней частоте дискретизации осуществляется посредством использования схемы преобразования с переменной дискретизацией, которая повторно дискретизирует входной сигнал. LF- и HF-сигналы затем кодируются с использованием двух разных подходов: LF кодируется и декодируется с использованием "базового" кодера/декодера на основе переключаемого ACELP и возбуждения по кодированию с преобразованием (TCX). В ACELP-режиме используется стандартный AMR-WB-кодек. HF-сигнал кодируется с помощью относительно небольшого числа битов (16 битов в расчете на кадр) с использованием способа расширения полосы пропускания (BWE). AMR-WB-кодер включает в себя функциональные средства предварительной обработки, LPC-анализ, функциональные средства поиска с разомкнутым контуром, функциональные средства поиска в адаптивной таблице кодирования, функциональные средства поиска в инновационной таблице кодирования и обновление памяти. ACELP-декодер содержит несколько функциональных средств, к примеру, декодирования адаптивной таблицы кодирования, усиления при декодировании, декодирования инновационной таблицы кодирования, декодирования ISP, фильтра с долгосрочным предсказанием (LTP-фильтр), функциональные средства возбуждения на основе конструкций, интерполяции ISP для четырех субкадров, постобработки, синтезирующего фильтра, блока коррекции предыскажений и повышающей дискретизации, с тем чтобы в итоге получать часть полосы нижних частот речевого выходного сигнала. Часть полосы верхних частот речевого выходного сигнала формируется посредством масштабирования усилений с использованием индекса HB-усиления, VAD-флага и случайного возбуждения при 16 кГц. Кроме того, используется синтезирующий HB-фильтр, после которого идет полосовой фильтр. Дополнительные сведения приведены на фиг. 3 документа G.722.2.

Эта схема усовершенствована в AMR-WB+ за счет выполнения постобработки моносигнала полосы низких частот. Следует обратиться к фиг. 7, 8 и 9, иллюстрирующим функциональные средства в AMR-WB+. Фиг. 7 иллюстрирует модуль 700 улучшения основного тона, фильтр 702 нижних частот, фильтр 704 верхних частот, каскад 706 отслеживания основного тона и сумматор 708. Блоки соединяются так, как проиллюстрировано на фиг. 7, и в них подается декодированный сигнал.

При улучшении низкочастотного основного тона используется двухполосное разложение, и адаптивная фильтрация применяется только к полосе нижних частот. Это приводит к общей постобработке, которая главным образом предназначена для частот около основных гармоник синтезированного речевого сигнала. Фиг. 7 показывает блок-схему двухполосного модуля улучшения основного тона. В верхней ветви декодированный сигнал фильтруется посредством фильтра 704 верхних частот, так что формируются сигналы s_H полосы верхних частот. В нижней ветви декодированный сигнал сначала обрабатывается посредством адаптивного модуля 700 улучшения основного тона и затем фильтруется посредством фильтра 702 нижних частот, чтобы получать сигнал (s_LEE) постобработки полосы нижних частот.

Декодированный сигнал постобработки получается посредством суммирования сигнала постобработки полосы нижних частот и сигнала полосы верхних частот. Назначение модуля улучшения основного тона состоит в том, чтобы уменьшать межгармонический шум в декодированном сигнале, что достигается посредством изменяющегося во времени линейного фильтра с передаточной функцией H_E, указываемой в первой строке по фиг. 9 и описанной посредством уравнения во второй строке по фиг. 9; α является коэффициентом, который управляет межгармоническим ослаблением. T является периодом основного тона входного сигнала Ŝk(n), а s_LE(n) является выходным сигналом модуля улучшения основного тона. Параметры T и α изменяются во времени и задаются посредством модуля 706 отслеживания основного тона со значением α=1; усиление фильтра, описанного посредством уравнения во второй строке по фиг. 9, равно исключительно нулю на частотах 1/(2T), 3/(2T), 5/(2T) и т.д., т.е. в средней точке между DC (0 Гц) и частотами гармоники 1/T, 3/T, 5/T и т.д. Когда α приближается к нулю, снижается ослабление между гармониками, сформированными посредством фильтра, как задано во второй строке по фиг. 9. Когда α равен нулю, фильтр вообще не действует и пропускает все частоты. Чтобы ограничивать постобработку областью низких частот, улучшенный сигнал s_LE подвергается фильтрации нижних частот, чтобы формировать сигнал s_LEF, который суммируется с сигналом s_H фильтра верхних частот с тем, чтобы получать синтезированный сигнал s_E постобработки. Другая конфигурация, эквивалентная иллюстрации на фиг. 7, проиллюстрирована на фиг. 8, и конфигурация на фиг. 8 исключает необходимость фильтрации верхних частот. Это поясняется относительно третьего уравнения для s_E на фиг. 9; h_LP(n) является импульсной характеристикой фильтра нижних частот, а h_HP(n) является импульсной характеристикой комплементарного фильтра верхних частот. Затем, сигнал s_E(n) постобработки задается посредством третьего уравнения на фиг. 9. Таким образом, постобработка является эквивалентной вычитанию масштабированного фильтрованного по нижним частотам сигнала α.e_LT(n) долгосрочной ошибки из синтезированного сигнала ŝk(n). Передаточная функция фильтра с долгосрочным предсказанием задается так, как указано в последней строке по фиг. 9. Эта альтернативная конфигурация постобработки проиллюстрирована на фиг. 8. Значение T задается посредством принимаемого запаздывания основного тона с замкнутым контуром в каждом субкадре (дробное запаздывание основного тона округляется до ближайшего целого числа). Простое отслеживание на предмет проверки удвоения основного тона выполняется. Если нормализованная корреляция основного тона при задержке T/2 превышает 0,95, то значение T/2 используется в качестве нового запаздывания основного тона для постобработки. Коэффициент α задается посредством α=0,5g_p, ограниченного как α, большее или равное нулю и меньшее или равное 0,5. g_p является декодированным усилением основного тона, ограниченным между 0 и 1. В TCX-режиме значение α задается равным нулю. Линейный фазовый FIR-фильтр нижних частот с 25 коэффициентами используется с частотой среза приблизительно 500 Гц. Задержка фильтра составляет 12 выборок. Верхняя ветвь должна вводить задержку, соответствующую задержке обработки в нижней ветви, чтобы поддерживать сигналы в двух ветвях совмещенными по времени до выполнения вычитания. В AMR-WB+ F_s=2x от частоты дискретизации базы. Базовая частота дискретизации равна 12800 Гц. Таким образом, частота среза равна 500 Гц.

Обнаружено то, что, в частности, для вариантов применения с низкой задержкой, задержка фильтра в 12 выборок, введенная посредством FIR-фильтра нижних частот с линейной фазой, обеспечивает вклад в полную задержку схемы кодирования/декодирования. Существуют другие источники систематических задержек в других местах цепочки кодирования/декодирования, и задержка FIR-фильтра накапливается за счет других источников.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип обработки аудиосигналов, который лучше подходит для вариантов применения в реальном времени или сценариев двусторонней связи, к примеру сценариев использования мобильных телефонов.

Это цель достигается посредством устройства для обработки декодированного аудиосигнала по п. 1 формулы изобретения, либо способа обработки декодированного аудиосигнала по п. 15 формулы изобретения, либо компьютерной программы по п. 16 формулы изобретения.

Настоящее изобретение основано на том факте, что доля фильтра нижних частот при постфильтрации нижних звуковых частот декодированного сигнала в полной задержке является проблематичной и должна быть уменьшена. С этой целью, фильтрованный аудиосигнал не подвергается фильтрации нижних частот во временной области, но подвергается фильтрации нижних частот в спектральной области, такой как QMF-область или любая другая спектральная область, например MDCT-область, FFT-область и т.д. Обнаружено то, что преобразование из спектральной области в частотную область и, например, в частотную область низкого разрешения, к примеру в QMF-область, может быть выполнено с низкой задержкой, и частотная избирательность фильтра, который должен быть реализован в спектральной области, может быть реализована посредством простого взвешивания отдельных подполосных сигналов из представления в частотной области фильтрованного аудиосигнала. Следовательно, это "впечатление" частотно-избирательной характеристики достигается вообще без систематической задержки, поскольку операция умножения или взвешивания с подполосным сигналом не подвержена задержке. Вычитание фильтрованного аудиосигнала и исходного аудиосигнала также выполняется в спектральной области. Кроме того, предпочтительно выполнять дополнительные операции, которые, например, необходимы в любом случае, к примеру, декодирование репликации полос спектра либо стерео- или многоканальное декодирование дополнительно выполняется в одной QMF-области. Частотно-временное преобразование выполняется только в конце цепочки декодирования, чтобы возвращать в итоге сформированный аудиосигнал во временную область. Следовательно, в зависимости от варианта применения, результирующий аудиосигнал, сформированный посредством модуля вычитания, может быть преобразован обратно во временную область как есть, когда дополнительные операции обработки в QMF-области более не требуются. Тем не менее, когда алгоритм декодирования имеет дополнительные операции обработки в QMF-области, то частотно-временной преобразователь соединяется не с выходом модуля вычитания, а соединяется с выходом последнего устройства обработки в частотной области.

Предпочтительно, фильтр для фильтрации декодированного аудиосигнала является фильтром с долгосрочным предсказанием. Кроме того, предпочтительно, чтобы спектральное представление представляло собой QMF-представление, и дополнительно предпочтительно, чтобы частотная избирательность представляла собой характеристику нижних частот.

Тем не менее, любые другие фильтры, отличающиеся от фильтра с долгосрочным предсказанием, любые другие спектральные представления, отличающиеся от QMF-представления, или любая другая частотная избирательность, отличающаяся от характеристики нижних частот, могут быть использованы для того, чтобы получать постобработку с низкой задержкой декодированного аудиосигнала.

Предпочтительные варианты осуществления настоящего изобретения описаны далее со ссылками на прилагаемые чертежи, из которых:

Фиг. 1a является блок-схемой устройства для обработки декодированного аудиосигнала в соответствии с вариантом осуществления;

Фиг. 1b является блок-схемой предпочтительного варианта осуществления для устройства для обработки декодированного аудиосигнала;

Фиг. 2a примерно иллюстрирует частотно-избирательную характеристику в качестве характеристики нижних частот;

Фиг. 2b иллюстрирует весовые коэффициенты и ассоциированные подполосы частот;

Фиг. 2c иллюстрирует каскад преобразователя время-спектр и следующего соединенного модуля взвешивания для применения весовых коэффициентов к каждому отдельному подполосному сигналу;

Фиг. 3 иллюстрирует импульсную характеристику в частотной характеристике фильтра нижних частот в AMR-WB+, проиллюстрированном на фиг. 8;

Фиг. 4 иллюстрирует импульсную характеристику и частотную характеристику, преобразованные в QMF-область;

Фиг. 5 иллюстрирует весовые коэффициенты для модулей взвешивания для примера 32 QMF-подполос частот;

Фиг. 6 иллюстрирует частотную характеристику для 16 QMF-полос частот и ассоциированных 16 весовых коэффициентов;

Фиг. 7 иллюстрирует блок-схему модуля улучшения низкочастотного основного тона AMR-WB+;

Фиг. 8 иллюстрирует реализованную конфигурацию постобработки AMR-WB+;

Фиг. 9 иллюстрирует извлечение реализации по фиг. 8; и

Фиг. 10 иллюстрирует реализацию с низкой задержкой фильтра с долгосрочным предсказанием в соответствии с вариантом осуществления.

Фиг. 1a иллюстрирует устройство для обработки декодированного аудиосигнала на линии 100. Декодированный аудиосигнал на линии 100 вводится в фильтр 102 для фильтрации декодированного аудиосигнала, чтобы получать фильтрованный аудиосигнал на линии 104. Фильтр 102 соединяется с каскадом 106 преобразователя время-спектр, проиллюстрированным в качестве двух отдельных преобразователей 106a время-спектр для фильтрованного аудиосигнала и 106b для декодированного аудиосигнала на линии 100. Каскад преобразователя время-спектр выполнен с возможностью преобразования аудиосигнала и фильтрованного аудиосигнала в соответствующее спектральное представление, имеющее множество подполосных сигналов. Это указывается посредством сдвоенных линий на фиг. 1a, которые указывают то, что выходной сигнал блоков 106a, 106b содержит множество отдельных подполосных сигналов, а не один сигнал, как проиллюстрировано для ввода в блоки 106a, 106b.

Устройство для обработки дополнительно содержит модуль 108 взвешивания для выполнения частотно-избирательного взвешивания фильтрованного аудиосигнала, выводимого посредством блока 106a, посредством умножения отдельных подполосных сигналов на соответствующие весовые коэффициенты, чтобы получать взвешенный фильтрованный аудиосигнал на линии 110.

Кроме того, предоставляется модуль 112 вычитания. Модуль вычитания выполнен с возможностью выполнения вычитания по подполосам частот между взвешенным фильтрованным аудиосигналом и спектральным представлением аудиосигнала, сформированного посредством блока 106b.

Кроме того, предоставляется преобразователь 114 спектр-время. Преобразование спектр-время, выполняемое посредством блока 114, является таким, что результирующий аудиосигнал, сформированный посредством модуля 112 вычитания, или сигнал, извлекаемый из результирующего аудиосигнала, преобразуется в представление во временной области, чтобы получать обработанный декодированный аудиосигнал на линии 116.

Хотя фиг. 1a указывает то, что задержка посредством преобразования время-спектр и взвешивания значительно ниже задержки посредством FIR-фильтрации, это не требуется во всех случаях, поскольку в ситуациях, в которых QMF является совершенно обязательным, накопление задержек FIR-фильтрации и QMF исключается. Следовательно, настоящее изобретение также является полезным, когда задержка посредством взвешивания преобразования время-спектр даже выше задержки FIR-фильтра для постфильтрации нижних звуковых частот.

Фиг. 1b иллюстрирует предпочтительный вариант осуществления настоящего изобретения в контексте USAC-декодера или AMR-WB+-декодера. Устройство, проиллюстрированное на фиг. 1b, содержит каскад 120 ACELP-декодера, каскад 122 TCX-декодера и соединительную точку 124, в которой соединяются выходные сигналы декодеров 120, 122. Соединительная точка 124 начинает две отдельные ветви. Первая ветвь содержит фильтр 102, который предпочтительно конфигурируется в качестве фильтра с долгосрочным предсказанием, который задается посредством запаздывания T основного тона, после которого идет усилитель 129 адаптивного усиления α. Кроме того, первая ветвь содержит преобразователь 106a время-спектр, который предпочтительно реализуется в качестве гребенки анализирующих QMF-фильтров. Кроме того, первая ветвь содержит модуль 108 взвешивания, который выполнен с возможностью взвешивания подполосных сигналов, сформированных посредством гребенки 106a анализирующих QMF-фильтров.

Во второй ветви декодированный аудиосигнал преобразуется в спектральную область посредством гребенки 106b анализирующих QMF-фильтров.

Хотя отдельные QMF-блоки 106a, 106b проиллюстрированы в качестве двух отдельных элементов, следует отметить, что для анализа фильтрованного аудиосигнала и аудиосигнала не обязательно следует иметь две отдельные гребенки анализирующих QMF-фильтров. Вместо этого одна гребенка анализирующих QMF-фильтров и память могут быть достаточными, когда сигналы преобразуются один за другим. Тем не менее, для реализаций с очень низкой задержкой предпочтительно использовать отдельные гребенки анализирующих QMF-фильтров для каждого сигнала, так что один QMF-блок не является узким местом алгоритма.

Предпочтительно, преобразование в спектральную область и обратно во временную область выполняется посредством алгоритма, имеющего задержку для прямого и обратного преобразования, меньшую, чем задержка фильтрации во временной области с частотно-избирательной характеристикой. Следовательно, преобразования должны иметь полную задержку, меньшую задержки рассматриваемого фильтра. В частности, подходят преобразования низкого разрешения, к примеру преобразования на основе QMF, поскольку низкое частотное разрешение приводит к потребности в небольшом окне преобразования, т.е. к уменьшенной систематической задержке. Предпочтительные варианты применения требуют только преобразования низкого разрешения с разложением сигнала менее чем в 40 подполосах частот, к примеру в 32 или только в 16 подполосах частот. Тем не менее, даже в вариантах применения, в которых преобразование время-спектр и взвешивание вводит более высокую задержку, чем фильтр нижних частот, обеспечивается преимущество вследствие того факта, что накопление задержек для фильтра нижних частот и преобразования время-спектр, необходимых в любом случае для других процедур, исключается.

Тем не менее, для вариантов применения, которые в любом случае требуют частотно-временного преобразования вследствие других операций обработки, таких как повторная дискретизация, SBR или MPS, уменьшение задержки получается независимо от задержки, обусловленной посредством частотно-временного или временно-частотного преобразования, поскольку за счет "включения" реализации фильтра в спектральную область задержка фильтра временной области полностью экономится вследствие того факта, что взвешивание по подполосам частот выполняется вообще без систематической задержки.

Адаптивный усилитель 129 управляется посредством контроллера 130. Контроллер 130 выполнен с возможностью задания усиления α усилителя 129 равным нулю, когда входной сигнал является TCX-декодированным сигналом. Обычно в переключаемых аудиокодеках, таких как USAC или AMR-WB+, декодированный сигнал в соединительной точке 124 типично исходит либо из TCX-декодера 122, либо из ACELP-декодера 120. Следовательно, существует мультиплексирование во времени декодированных выходных сигналов двух декодеров 120, 122. Контроллер 130 выполнен с возможностью определения на текущий момент времени того, исходит выходной сигнал из TCX-декодированного сигнала или из ACELP-декодированного сигнала. Когда определяется то, что существует TCX-сигнал, то адаптивное усиление α задается равным нулю, так что первая ветвь, состоящая из элементов 102, 129, 106a, 108, вообще не имеет значимости. Это обусловлено тем фактом, что конкретный вид постфильтрации, используемой в AMR-WB+ или USAC, требуется только для ACELP-кодированного сигнала. Тем не менее, когда осуществляются другие реализации постфильтрации, отличные от фильтрации гармоник или улучшения основного тона, то переменное усиление α может задаваться по-разному в зависимости от потребностей.

Тем не менее, когда контроллер 130 определяет то, что текущий доступный сигнал является ACELP-декодированным сигналом, то значение усилителя 129 задается равным правильному значению для α, которое типично находится между 0 и 0,5. В этом случае первая ветвь является существенной, и выходной сигнал модуля 112 вычитания значительно отличается от первоначально декодированного аудиосигнала в соединительной точке 124.

Информация основного тона (запаздывание основного тона и альфа усиления), используемая в фильтре 120 и усилителе 128, может поступать из декодера и/или специализированного модуля отслеживания основного тона. Предпочтительно, информация поступает из декодера и затем повторно обрабатывается (уточняется) с помощью специализированного модуля отслеживания основного тона/анализ на основе долгосрочного предсказания декодированного сигнала.

Результирующий аудиосигнал, сформированный посредством модуля 112 вычитания, выполняющего вычитание в расчете на полосу частот или в расчете на подполосу частот, не сразу переводится обратно во временную область. Вместо этого сигнал перенаправляется в модуль 128 SBR-декодера. Модуль 128 соединяется с моностерео- или мономногоканальным декодером, таким как MPS-декодер 131, где MPS означает стандарт объемного звучания MPEG.

Типично, число полос частот повышается посредством декодера репликации полосы пропускания спектра, что указывается посредством трех дополнительных линий 132 на выходе блока 128.

Кроме того, число выходов дополнительно повышается посредством блока 131. Блок 131 формирует, из моносигнала на выходе блока 129, например, 5-канальный сигнал или любой другой сигнал, имеющий два или более каналов. В качестве примера, проиллюстрирован 5-канальный сценарий, который имеет левый канал L, правый канал R, центральный канал C, левый канал L_S объемного звучания и правый канал R_S объемного звучания. Следовательно, преобразователь 114 спектр-время предусмотрен для каждого из отдельных каналов, т.е. предусмотрен пять раз на фиг. 1b, чтобы преобразовывать каждый отдельный сигнал канала из спектральной области, которая представляет собой, в примере фиг. 1b, QMF-область, обратно во временную область на выходе блока 114. С другой стороны, необязательно существует множество отдельных преобразователей спектр-время. Также может быть один преобразователь спектр-время, который обрабатывает преобразования один за другим. Тем не менее, когда требуется реализация с очень низкой задержкой, предпочтительно использовать отдельный преобразователь спектр-время для каждого канала.

Настоящее изобретение обеспечивает преимущество в том, что задержка, введенная посредством постфильтра нижних звуковых частот и, в частности, посредством реализации FIR-фильтра нижних частот, уменьшается. Следовательно, любой вид частотно-избирательной фильтрации не вводит дополнительную задержку относительно задержки, требуемой для QMF или, вообще говоря, для частотно-временного преобразования.

Настоящее изобретение, в частности, является преимущественным, когда QMF или, в общем, частотно-временное преобразование требуется в любом случае, как, например, в случае фиг. 1b, в котором SBR-функциональность и MPS-функциональность в любом случае осуществляются в спектральной области. Альтернативная реализация, в которой требуется QMF, представляет собой случай, когда повторная дискретизация выполняется с декодированным сигналом и когда для повторной дискретизации требуются гребенка анализирующих QMF-фильтров и гребенка синтезирующих QMF-фильтров с различным числом каналов гребенки фильтров.

Кроме того, постоянное кадрирование между ACELP и TCX поддерживается вследствие того факта, что оба сигнала, т.е. TCX и ACELP, теперь имеют идентичную задержку.

Функциональные средства декодера 129 расширения полосы пропускания подробно описываются в разделе 6.5 ISO/IEC CD 23003-3. Функциональные средства многоканального декодера 131 подробно описываются, например, в разделе 6.11 ISO/IEC CD 23003-3. Функциональные средства, помимо TCX-декодера и ACELP-декодера, подробно описываются в подразделах 6.12-6.17 ISO/IEC CD 23003-3.

Далее поясняются фиг. 2a-2c для того, чтобы иллюстрировать схематичный пример. Фиг. 2a иллюстрирует частотно-избирательную частотную характеристику схематичного фильтра нижних частот.

Фиг. 2b иллюстрирует весовые индексы для номеров подполос частот или подполос частот, указываемых на фиг. 2a. В схематичном случае по фиг. 2a, подполосы 1-6 частот имеют весовые коэффициенты, равные 1, т.е. без взвешивания, и полосы 7-10 частот имеют снижающиеся весовые коэффициенты, а полосы 11-14 частот имеют нули.

Соответствующая реализация каскада из преобразователя время-спектр, к примеру, 106a и следующего соединенного модуля 108 взвешивания проиллюстрирована на фиг. 2c. Каждая подполоса частот 1, 2, ..., 14 вводится в отдельный взвешивающий блок, указываемый посредством W₁, W₂, ..., W₁₄. Модуль 108 взвешивания применяет весовой коэффициент из таблицы по фиг. 2b к каждому отдельному подполосному сигналу посредством умножения каждой дискретизации подполосного сигнала на весовой коэффициент. Далее, на выходе модуля взвешивания предусмотрены взвешенные подполосные сигналы, которые затем вводятся в модуль 112 вычитания по фиг. 1a, который дополнительно выполняет вычитание в спектральной области.

Фиг. 3 иллюстрирует импульсную характеристику и частотную характеристику фильтра нижних частот на фиг. 8 AMR-WB+-кодера. Фильтр h_LP(n) нижних частот во временной области задается в AMR-WB+ посредством следующих коэффициентов.

a[13]=[0,088250, 0,086410, 0,081074, 0,072768, 0,062294, 0,050623, 0,038774, 0,027692, 0,018130, 0,010578, 0,005221, 0,001946, 0,000385];

h_LP(n)=a(13-n) для n от 1 до 12;

h_LP(n)=a(n-12) для n от 13 до 25.

Импульсная характеристика и частотная характеристика, проиллюстрированные на фиг. 3, предназначены для случая, когда фильтр применяется к выборке сигналов временной области для 12,8 кГц. Сформированная задержка в таком случае представляет собой задержку в 12 выборок, т.е. 0,9375 мс.

Фильтр, проиллюстрированный на фиг. 3, имеет частотную характеристику в QMF-области, в которой каждый QMF имеет разрешение в 400 Гц. 32 QMF-полосы частот покрывают полосу частот выборки сигналов в 12,8 кГц. Частотная характеристика и QMF-область проиллюстрированы на фиг. 4.

Амплитудная частотная характеристика с разрешением в 400 Гц формирует весовые коэффициенты, используемые при применении фильтра нижних частот в QMF-области. Весовые коэффициенты для модуля 108 взвешивания для вышеуказанных примерных параметров приведены на фиг. 5.

Эти весовые коэффициенты могут вычисляться следующим образом:

W=abs(DFT(h_LP(n), 64)), где DFT(x,N) означает дискретное преобразование Фурье длины N сигнала x. Если x меньше N, сигнал дополняется N-размером из x нулей. Длина N DFT в два раза превышает число QMF-подполос частот. Поскольку h_LP(n) представляет собой сигнал вещественных коэффициентов, W показывает эрмитову симметрию и N/2 частотных коэффициентов между частотой 0 и частотой Найквиста.

Посредством анализа частотной характеристики коэффициентов фильтрации, он приблизительно соответствует частоте среза в 2*pi*10/256. Это используется для реализации фильтра. Коэффициенты затем квантованы для их записи в 14 битах для экономии части потребления ROM и с учетом реализации с фиксированной запятой.

Фильтрация в QMF-области далее выполняется следующим образом:

Y - постобработанный сигнал в QMF-области;

X - декодированный сигнал в сигнале QMF из базового кодера;

E - межгармонический шум, сформированный в TD для того, чтобы удалять из X;

Y(k)=X(k)-W(k).E(k), для k от 1 до 32.

Фиг. 6 иллюстрирует дополнительный пример, в котором QMF имеет разрешение в 800 Гц, так что 16 полос частот покрывают полную полосу пропускания сигнала, дискретизированного при 12,8 кГц. Коэффициенты W в таком случае являются такими, как указано на фиг. 6 под графиком. Фильтрация проводится аналогично тому, как пояснено относительно фиг. 6, но k имеет значения только от 1 до 16.

Частотная характеристика фильтра в 16-полосном QMF изображена так, как проиллюстрировано на фиг. 6.

Фиг. 10 иллюстрирует дополнительное улучшение фильтра с долгосрочным предсказанием, проиллюстрированного как 102 на фиг. 1b.

В частности, для реализации с низкой задержкой, член ŝk(n+T) в строках с третью по последнюю по фиг. 9 является проблематичным. Это обусловлено тем фактом, что T выборок находятся в будущем относительно фактического времени n. Следовательно, чтобы разрешать ситуации, в которых вследствие реализации с низкой задержкой будущие значения еще не доступны, ŝk(n+T) заменяется на ŝk, как указано на фиг. 10. Затем, фильтр с долгосрочным предсказанием аппроксимирует долгосрочное предсказание предшествующего уровня техники, но с меньшей или нулевой задержкой. Обнаружено то, что аппроксимация является достаточно хорошей и что усиление относительно уменьшенной задержки обеспечивает большие преимущества за счет небольших потерь в улучшении основного тона.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, или элемента, или признака соответствующего устройства.

В зависимости от конкретных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового запоминающего носителя, например гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат невременный носитель хранения данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления предлагаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления предлагаемых способов представляет собой носитель хранения данных (цифровой запоминающий носитель или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Следовательно, дополнительный вариант осуществления предлагаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных деталей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Claims

1. Устройство для обработки декодированного аудиосигнала (100), содержащее:
- фильтр (102) для фильтрации декодированного аудиосигнала, чтобы получать фильтрованный аудиосигнал (104);
- каскад (106) преобразователя время-спектр для преобразования декодированного аудиосигнала и фильтрованного аудиосигнала в соответствующие спектральные представления, причем каждое спектральное представление имеет множество подполосных сигналов;
- модуль (108) взвешивания для выполнения частотно-избирательного взвешивания спектрального представления фильтрованного аудиосигнала посредством умножения подполосных сигналов на соответствующие весовые коэффициенты, чтобы получать взвешенный фильтрованный аудиосигнал;
- модуль (112) вычитания для выполнения вычитания по подполосам между взвешенным фильтрованным аудиосигналом и спектральным представлением аудиосигнала, чтобы получать результирующий аудиосигнал; и
- преобразователь (114) спектр-время для преобразования результирующего аудиосигнала или сигнала, извлекаемого из результирующего аудиосигнала, в представление во временной области, чтобы получать обработанный декодированный аудиосигнал (116).

2. Устройство по п. 1, дополнительно содержащее декодер (129) улучшения полосы пропускания или моно-стерео- или моно-многоканальный декодер (131), чтобы вычислять сигнал, извлекаемый из результирующего аудиосигнала,
причем преобразователь (114) спектр-время сконфигурирован для выполнения не преобразования результирующего аудиосигнала, а сигнала, извлекаемого из результирующего аудиосигнала, во временную область, так что вся обработка посредством декодера (129) улучшения полосы пропускания или моно-стерео- или моно-многоканального декодера (131) выполняется в той же спектральной области, которая задана посредством каскада (106) преобразователя время-спектр.

3. Устройство по любому одному из пп. 1 или 2,
- в котором декодированный аудиосигнал является ACELP-декодированным выходным сигналом, и
- причем фильтр (102) является фильтром с долгосрочным предсказанием, управляемым посредством информации основного тона.

4. Устройство по любому одному из пп. 1 или 2,
- в котором модуль (108) взвешивания выполнен с возможностью взвешивания фильтрованного аудиосигнала таким образом, что подполосы более нижних частот ослабляются в меньшей степени или не ослабляются по сравнению с подполосами более верхних частот, так что частотно-избирательное взвешивание накладывает характеристику нижних частот на фильтрованный аудиосигнал.

5. Устройство по любому одному из пп. 1 или 2,
- в котором каскад (106) преобразователя время-спектр и преобразователь (114) спектр-время выполнены с возможностью реализовывать гребенку анализирующих QMF-фильтров и гребенку синтезирующих QMF-фильтров соответственно.

6. Устройство по любому одному из пп. 1 или 2,
- в котором модуль (112) вычитания выполнен с возможностью вычитания подполосного сигнала взвешенного фильтрованного аудиосигнала из соответствующего подполосного сигнала аудиосигнала, чтобы получать подполосу частот результирующего аудиосигнала, причем подполосы частот принадлежат тому же самому каналу гребенки фильтров.

7. Устройство по любому одному из пп. 1 или 2,
- в котором фильтр (102) выполнен с возможностью осуществлять комбинирование со взвешиванием аудиосигнала и, по меньшей мере, аудиосигнала, сдвинутого по времени на период основного тона.

8. Устройство по п. 7,
- в котором фильтр (102) выполнен с возможностью выполнения комбинирования со взвешиванием посредством комбинирования только аудиосигнала и аудиосигнала, существующего в предыдущие моменты времени.

9. Устройство по любому одному из пп. 1 или 2,
- в котором преобразователь (114) спектр-время имеет отличное число входных каналов относительно каскада (106) преобразователя время-спектр, так что получается преобразование частоты дискретизации, причем повышающая дискретизация получается, когда число входных каналов в преобразователь спектр-время выше числа выходных каналов каскада преобразователя время-спектр, и причем понижающая дискретизация выполняется, когда число входных каналов в преобразователь спектр-время меньше числа выходных каналов из каскада преобразователя время-спектр.

10. Устройство по п. 1, дополнительно содержащее:
- первый декодер (120) для предоставления декодированного аудиосигнала в первом временном отрезке;
- второй декодер (122) для предоставления дополнительного декодированного аудиосигнала в отличном втором временном отрезке;
- первую ветвь обработки, соединенную с первым декодером (120) и вторым декодером (122);
- вторую ветвь обработки, соединенную с первым декодером (120) и вторым декодером (122),
- причем вторая ветвь обработки содержит фильтр (102) и модуль (108) взвешивания и дополнительно содержит управляемый усилительный каскад (129) и контроллер (130), причем контроллер (130) выполнен с возможностью задания усиления усилительного каскада (129) равным первому значению для первого временного отрезка и второму значению, которое ниже первого значения, или нулю для второго временного отрезка.

11. Устройство по п. 1, дополнительно содержащее модуль отслеживания основного тона для предоставления запаздывания основного тона и для задания фильтра (102) на основе запаздывания основного тона в качестве информации основного тона.

12. Устройство по любому одному из пп. 10 или 11, в котором первый декодер (120) выполнен с возможностью предоставления информации основного тона или части информации основного тона для задания фильтра (102).

13. Устройство по любому одному из пп. 10 или 11, в котором выход первой ветви обработки и выход второй ветви обработки соединяются с входами модуля (112) вычитания.

14. Устройство по любому одному из пп. 1 или 2, в котором декодированный аудиосигнал предоставляется посредством ACELP-декодера (120), включенного в устройство, и
- причем устройство дополнительно содержит дополнительный декодер (122), реализованный в качестве TCX-декодера.

15. Способ обработки декодированного аудиосигнала (100), содержащий этапы, на которых:
- фильтруют (102) декодированный аудиосигнал, чтобы получать фильтрованный аудиосигнал (104);
- преобразуют (106) декодированный аудиосигнал и фильтрованный аудиосигнал в соответствующие спектральные представления, причем каждое спектральное представление имеет множество подполосных сигналов;
- выполняют (108) частотно-избирательное взвешивание фильтрованного аудиосигнала посредством умножения подполосных сигналов на соответствующие весовые коэффициенты, чтобы получать взвешенный фильтрованный аудиосигнал;
- выполняют (112) вычитание по подполосам между взвешенным фильтрованным аудиосигналом и спектральным представлением аудиосигнала, чтобы получать результирующий аудиосигнал; и
- преобразуют (114) результирующий аудиосигнал или сигнал, извлекаемый из результирующего аудиосигнала, в представление во временной области, чтобы получать обработанный декодированный аудиосигнал (116).

16. Считываемый компьютером носитель, содержащий программный код для осуществления, при выполнении на компьютере, способа обработки декодированного аудиосигнала по п. 15.