RU2562384C2

RU2562384C2 - Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac)

Info

Publication number: RU2562384C2
Application number: RU2013120320/08A
Authority: RU
Inventors: Маркус МУЛТРУС; Бернхард ГРИЛЛ; Макс НОЙЕНДОРФ; Николаус РЕТТЕЛЬБАХ; Гийом ФУКС; Филипп ГУРНЕ; Рок ЛЕФЕВР; Брюно БЕССЕТТ; Штефан ВИЛЬДЕ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.; Войсэйдж Корпорейшн
Priority date: 2010-10-06
Filing date: 2011-10-04
Publication date: 2015-09-10
Also published as: US20130226570A1; MY155997A; TW201222532A; HK1190223A1; TWI486950B; US9552822B2; WO2012045744A1; MX2013003782A; AR101853A2; EP2625688B1; AU2011311659A1; JP6100164B2; CN103403799A; CA2813859C; ES2530957T3; BR112013008463A2; BR112013008463B1; EP2625688A1; SG189277A1; KR20130069821A

Abstract

Изобретение относится к обработке аудио сигнала. Технический результат - упрощение устройства и обеспечение большей детализации во времени для комбинированного унифицированного кодека речи и аудио. Устройство для обработки аудио сигнала содержит процессор обработки сигналов и конфигуратор. Процессор обработки сигналов выполнен с возможностью: приема первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов упомянутого аудио сигнала; повышения частоты дискретизации аудио сигнала на конфигурируемый коэффициент повышения частоты дискретизации, для получения обработанного аудио сигнала; вывода второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала. Конфигуратор выполнен с возможностью: конфигурирования процессора обработки сигналов на основе информации конфигурации так, что конфигурируемый коэффициент повышения частоты дискретизации равен первому значению повышения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения; конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен отличающемуся второму значению повышения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения. 6 н. и 14 з.п. ф-лы, 13 ил.

Description

Настоящее изобретение относится к обработке аудио и, в частности, к способу и устройству для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (USAC).

У USAC, как и у других аудиокодеков, фиксированный размер кадра (USAC: 2048 отсчетов/кадр). Несмотря на то, что существует возможность переключения на ограниченный набор более коротких размеров преобразования в пределах одного кадра, упомянутый размер кадра по-прежнему ограничивает временное разрешение полной системы. Для увеличения степени детализации во времени (временной гранулярности) полной системы, для обычных аудиокодеков увеличивают частоту дискретизации, (что приводит) к более короткой длительности одного кадра во времени (например, миллисекунды). Однако для кодека USAC это, возможно, не так просто.

Кодек USAC содержит комбинацию инструментальных средств из обычных общих аудиокодеков, например, кодера с преобразованием AAC (Advanced Audio Coding, Перспективное звуковое кодирование), SBR (Spectral Band Replication, Репликация спектральной полосы) и Многоканальной стереофонии MPEG (MPEG Surround, MPEG = Moving Picture Experts Group, Экспертная группа по вопросам движущегося изображения), плюс инструментальных средств из обычных речевых кодеров, нарпимер, ACELP (ACELP = Algebraic Code Excited Linear Prediction, Линейное предсказание с алгебраическим кодовым возбуждением). Как кодер ACELP, так и кодер с преобразованием обычно работают одновременно в идентичных условиях (то есть размер кадра, частота дискретизации), и между ними можно легко переключаться: обычно, для чистых речевых сигналов, используется инструментальное средство ACELP, а для музыки, смешанных сигналов используется кодер с преобразованием.

Вместе с тем, инструментальное средство ACELP имеет ограничения и работает только при сравнительно низких частотах дискретизации. Для 24 кбит/сек, используется частота дискретизации только 17075 Гц. Для более высоких частот дискретизации, эксплуатационные качества инструментального средства ACELP начинают значительно снижаться. Однако кодер с преобразованием, а также SBR и Многоканальная стереофония MPEG имеют преимущество при намного более высокой частоте дискретизации, например, 22050 Гц - для кодера с преобразованием, и 44100 Гц - для Многоканальной стереофонии MPEG и SBR. Однако пока инструментальное средство ACELP ограничивает частоту дискретизации полной системы, что приводит к квазиоптимальной системе, в частности, для музыкальных сигналов.

Задачей настоящего изобретения является обеспечение улучшенных принципов для устройства и способа обработки аудио сигнала. Задача настоящего изобретение решается посредством устройства по п. 1, способа по п. 15, устройства по п. 16, способа по п. 18 и компьютерной программы по п. 19.

Современная RM USAC обеспечивает высокие эксплуатационные качества кодирования при большем количестве режимов работы в диапазоне от самых низких скоростей передачи битов (битрейт), например, 8 кбит/с до "прозрачного" качества при скоростях передачи битов 128 кбит/с и выше. Для достижения такого высокого качества при таком широком диапазоне скоростей передачи битов, используется комбинация инструментальных средств, например, Многоканальной стереофонии MPEG, SBR, ACELP и обычных кодеров с преобразованием. Такая комбинация инструментальных средств, конечно, требует совместного процесса оптимизации взаимодействия инструментальных средств и общих условий, в которую помещены эти инструментальные средства.

При этом совместном процессе оптимизации обнаружено, что у некоторых из инструментальных средств существуют недостатки при воспроизведении сигналов, которые демонстрируют большую временную структуру в диапазоне средних скоростей передачи битов (24 кбит/сек - 32 кбит/сек). В частности, инструментальные средства Многоканальной стереофонии MPEG. SBR и кодеры с преобразованием FD (FD, TCX) (FD=Frequency Domain, Частотная область, TCX=Transform Coded Excitation, Преобразование кодированного возбуждения), то есть все инструментальные средства, которые функционируют в частотной области, могут иметь высокие эксплуатационные качества при функционировании с более высокой степенью детализации во времени, что идентично более короткому размеру кадра во временной области.

По сравнению с кодером HE-AACv2 (High-Efficiency AAC v2, Высокопроизводительный кодер AAC v2) существующего уровня техники, обнаружено, что, с использованием идентичного размера кадра (в отсчетах), кодер текущего эталонного качества USAC функционирует при таких скоростях передачи битов, как 24 кбит/сек и 32 кбит/сек, при значительно меньшей частоте дискретизации. Это означает, что длительность кадров в миллисекундах является значительно большей. Для компенсации этих недостатков степень детализации во времени должна быть увеличена. Это может быть достигнуто посредством увеличения частоты дискретизации или сокращения размеров кадра (например, систем, использующих фиксированный размер кадра).

В то время как увеличение частоты дискретизации является разумным направлением дальнейших действий для SBR и Многоканальной стереофонии MPEG с целью повышения эксплуатационных качеств для временных динамических сигналов, оно не является эффективным для всех инструментальных средств базового кодера. Известно, что более высокая частота дискретизации является полезной для кодера с преобразованием, но одновременно существенно понижает эксплуатационные качества инструментального средства ACELP.

Обеспечено устройство для обработки аудио сигнала. Это устройство содержит процессор обработки сигналов и конфигуратор. Процессор обработки сигналов выполнен с возможностью приема первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью повышения частоты дискретизации аудио сигнала на конфигурируемый коэффициент повышения частоты дискретизации, для получения обработанного аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью вывода второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала.

Конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов на основе информации конфигурации так, что конфигурируемый коэффициент повышения частоты дискретизации равен первому значению повышения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения. Кроме того, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен отличающемуся второму значению повышения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения. Причем это первое или второе значение отношения не является целочисленным значением.

Согласно вышеописанному варианту осуществления, процессор обработки сигналов повышает частоту дискретизации аудио сигнала для получения обработанного аудио сигнала с повышенной частотой дискретизации. В вышеупомянутом варианте осуществления коэффициент повышения частоты дискретизации, является конфигурируемым и может являться нецелочисленным значением. Конфигурируемость и тот факт, что коэффициент повышения частоты дискретизации, может являться нецелочисленным значением, увеличивают гибкость устройства. Когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения, тогда конфигурируемый коэффициент повышения частоты дискретизации, имеет отличающееся второе значение повышения частоты дискретизации. Соответственно, устройство выполнено с возможностью учета взаимосвязи между коэффициентом повышения частоты дискретизации, и отношением длины кадра (то есть количества отсчетов) второго и первого кадра аудио сигнала.

В одном варианте осуществления, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что отличающееся второе значение повышения частоты дискретизации, больше первого значения повышения частоты дискретизации, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов больше первого отношения второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов.

Согласно одному варианту осуществления, предложен новый рабочий режим (далее называемый "специальной настройкой") кодека USAC, который повышает эксплуатационные качества системы для средних скоростей передачи данных, например, 24 кбит/сек и 32 кбит/сек. Обнаружено, что для этих режимов работы, временное разрешение текущего опорного кодека USAC является слишком низким. Следовательно, предлагается a) увеличить это временное разрешение посредством сокращения размеров кадра базового кодера без увеличения частоты дискретизации для базового кодера, и также b) увеличить частоту дискретизации для SBR и Многоканальной стереофонии MPEG без изменения размера кадра для этих инструментальных средств.

Предложенная специальная настройка существенно улучшает гибкость системы, так как она обеспечивает возможность функционирования системы, включающей в себя инструментальное средство ACELP, при более высоких частотах дискретизации, например, 44,1 и 48 кГц. Так как на рынке, как правило, требуются эти частоты дискретизации, ожидается, что это поможет принятию кодека USAC.

С увеличением степени детализации во времени полного аудиокодека, новый рабочий режим для современного элемента унифицированного кодека речи и аудио (USAC) MPEG увеличивает временную гибкость всего кодека. Если (с предположением того, что второе количество отсчетов оставалось неизменным) второе отношение больше первого отношения, то первое конфигурируемое количество отсчетов было сокращено, то есть размер кадра первого кадра аудио сигнала был сокращен. Это в результате приводит к более высокой степени детализации во времени, и все инструментальные средства, которые функционируют в частотной области, и которые обрабатывают первый кадр аудио сигнала, могут иметь высокие эксплуатационные качества. В таком высокоэффективном рабочем режиме, однако, также требуется повышение эксплуатационных качеств инструментальных средств, которые обрабатывают второй кадр аудио сигнала, содержащий аудио сигнал с повышенной частотой дискретизации. Такое повышение эксплуатационных качеств этих инструментальных средств может быть реализовано посредством более высокой частоты дискретизации аудио сигнала с повышенной частотой дискретизации, то есть посредством увеличения коэффициента повышения частоты дискретизации, для такого рабочего режима. Кроме того, существуют инструментальные средства, например, декодер ACELP в USAC, которые не функционируют в частотной области, которые обрабатывают первый кадр аудио сигнала, и которые лучше всего функционируют тогда, когда частота дискретизации (исходного) аудио сигнала является относительно небольшой. Эти инструментальные средства имеют преимущество при большом коэффициенте повышения частоты дискретизации, поскольку это означает то, что частота дискретизации (исходного) аудио сигнала является относительно небольшой по сравнению с частотой дискретизации аудио сигнала с повышенной частотой дискретизации. В вышеописанном варианте осуществления обеспечено устройство, выполненное с возможностью обеспечения режима конфигурации для эффективной работы для таких условий.

С увеличением степени детализации во времени полного аудиокодека, новый рабочий режим увеличивает временную гибкость всего кодека.

В одном варианте осуществления, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен первому значению отношения, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем этот конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен отличающемуся второму значению отношения, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения.

В одном варианте осуществления, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен 2, когда первое отношение имеет первое значение отношения, и причем этот конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен 8/3, когда второе отношение имеет отличающееся второе значение отношения.

Согласно еще одному варианту осуществления, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что первое конфигурируемое количество отсчетов равно 1024, и второе конфигурируемое количество отсчетов равно 2048, когда первое отношение имеет первое значение отношения, и причем этот конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что это первое конфигурируемое количество отсчетов равно 768, и второе конфигурируемое количество отсчетов равно 2048, когда второе отношение имеет отличающееся второе значение отношения.

В одном варианте осуществления предложено ввести дополнительную настройку кодера USAC, где базовый кодер функционирует при более короткой длине кадра (768 вместо 1024 отсчетов). Кроме того, в этом контексте предложено модифицировать повторную дискретизацию в декодере SBR с 2:1 на 8:3, обеспечить возможность функционирования SBR и Многоканальной стереофонии MPEG при более высокой частоте дискретизации.

Кроме того, согласно одному варианту осуществления, степень детализации во времени базового кодера увеличивается при сокращении размера кадра базового кодера с 1024 до 768 отсчетов. На этом этапе, степень детализации во времени основного кодера увеличивается в 4/3 раза, тогда как частота дискретизации остается постоянной. Это обеспечивает возможность ACELP работать при надлежащей частоте дискретизации (Fs).

Кроме того, в инструментальном средстве SBR, применяется повторная дискретизация с отношением 8/3, (до настоящего момента: отношение 2), преобразование кадра размером 768 базового кодера при 3/8 Fs в выходной кадр размером 2048 при Fs. Это обеспечивает возможность работы инструментального средства SBR и Инструментального средства Многоканальной стереофонии MPEG при обычно высокой частоте дискретизации (например, 44100 Гц). Соответственно, обеспечивается хорошее качество для речевых и музыкальных сигналов, поскольку все инструментальные средства работают в своем оптимальном режиме работы.

В одном варианте осуществления, процессор обработки сигналов содержит модуль базового декодера для декодирования аудио сигнала для получения предварительно обработанного аудио сигнала, набор фильтров для анализа, имеющий несколько каналов набора фильтров для анализа, для преобразования первого предварительно обработанного аудио сигнала из временной области в частотную область для получения предварительно обработанного аудио сигнала частотной области, содержащего множество сигналов поддиапазонов, генератор поддиапазонов для создания и добавления дополнительных сигналов поддиапазонов для предварительно обработанного аудиосигнала частотной области, и набор фильтров для синтеза, имеющий несколько каналов набора фильтров для синтеза, для преобразования первого предварительно обработанного аудио сигнала из частотной области во временную область для получения обработанного аудио сигнала. Конфигуратор может быть выполнен с возможностью конфигурирования процессора обработки сигналов посредством конфигурирования количества каналов набора фильтров для синтеза или количества каналов набора фильтров для анализа так, что конфигурируемый коэффициент повышения частоты дискретизации, равен третьему отношению количества каналов набора фильтров для синтеза к количеству каналов набора фильтров для анализа. Генератор поддиапазонов может являться Средством репликации спектральной полосы (Spectral Band Replicator), выполненным с возможностью репликации сигналов поддиапазонов генератора предварительно обработанного аудио сигнала, для создания дополнительных сигналов поддиапазонов для предварительно обработанного аудиосигнала частотной области. Процессор обработки сигналов может также содержать декодер Многоканальной стереофонии MPEG для декодирования предварительно обработанного аудио сигнала для получения предварительно обработанного аудио сигнала, содержащего стерео- или пространственные каналы. Кроме того, генератор поддиапазонов может быть выполнен с возможностью подачи предварительно обработанного аудио сигнала частотной области в декодер Многоканальной стереофонии MPEG для предварительно обработанного аудио сигнала частотной области после того, как были созданы дополнительные сигналы поддиапазонов и добавлены к предварительно обработанному аудиосигналу частотной области.

Модуль базового декодера может содержать первый базовый декодер и второй базовый декодер, причем первый базовый декодер может быть выполнен с возможностью функционирования во временной области, и причем второй базовый декодер может быть выполнен с возможностью функционирования в частотной области. Первый базовый декодер может быть декодером ACELP, и второй базовый декодер может быть декодером с преобразованием FD или декодером с преобразованием TCX.

В одном варианте осуществления, размер суперкадра для кодека ACELP сокращается с 1024 до 768 отсчетов. Это может быть выполнено посредством объединения 4 кадров ACELP размером 192 (3 подкадра размером 64) в один кадр базового кодера размером 768 (ранее: 4 кадра ACELP размером 256 объединялись в кадр базового кодера размером 1024). Другим решением для достижения размера кадра базового кодера в 768 отсчетов является, например, объединение 3 кадров ACELP размером 256 (4 подкадра размером 64).

Согласно еще одному варианту осуществления, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов на основе информации конфигурации, указывающей, по меньшей мере, одно из первого конфигурируемого количества отсчетов аудио сигнала и второго конфигурируемого количества отсчетов обработанного аудио сигнала.

В другом варианте осуществления конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов на основе информации конфигурации, причем эта информация конфигурации указывает первое конфигурируемое количество отсчетов аудио сигнала и второе конфигурируемое количество отсчетов обработанного аудио сигнала, причем эта информация конфигурации является индексом конфигурации.

Кроме того, обеспечено устройство для обработки аудио сигнала. Это устройство содержит процессор обработки сигналов и конфигуратор. Процессор обработки сигналов выполнен с возможностью приема первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью понижения частоты дискретизации аудио сигнала посредством конфигурируемого коэффициента понижения частоты дискретизации, для получения обработанного аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью вывода второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала.

Конфигуратор может быть выполнен с возможностью конфигурирования процессора обработки сигналов на основе информации конфигурации так, что конфигурируемый коэффициент понижения частоты дискретизации, равен первому значению понижения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения. Кроме того, конфигуратор выполнен с возможностью конфигурирования процессора обработки сигналов так, что конфигурируемый коэффициент понижения частоты дискретизации, равен отличающемуся второму значению понижения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения. Причем это первое или второе значение отношения не является целочисленным значением.

Далее обсуждаются предпочтительные варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

На фиг. 1 изображено устройство для обработки аудио сигнала согласно одному варианту осуществления.

На фиг. 2 изображено устройство для обработки аудио сигнала согласно еще одному варианту осуществления.

На фиг. 3 изображен процесс повышения частоты дискретизации, осуществляемый устройством согласно одному варианту осуществления.

На фиг. 4 изображено устройство для обработки аудио сигнала согласно еще одному варианту осуществления.

На фиг. 5 изображен модуль базового декодера согласно одному варианту осуществления.

На фиг. 5B изображено устройство для обработки аудио сигнала согласно варианту осуществления по фиг. 4 с модулем базового декодера согласно фиг. 5A.

На фиг. 6A изображен суперкадр ACELP, содержащий 4 кадра ACELP.

На фиг. 6B изображен суперкадр ACELP, содержащий 3 кадра ACELP.

На фиг. 7A изображена настройка USAC по умолчанию.

На фиг. 7B изображена специальная настройка для USAC согласно одному варианту осуществления.

На фиг. 8A, фиг. 8B представлены результаты теста на прослушивание согласно способу MUSHRA.

На фиг. 9 изображено устройство для обработки аудио сигнала согласно альтернативному варианту осуществления.

На фиг. 1 изображено устройство для обработки аудио сигнала согласно одному варианту осуществления. Это устройство содержит процессор 110 обработки сигналов и конфигуратор 120. Процессор 110 обработки сигналов выполнен с возможностью приема первого кадра 140 аудио сигнала, имеющего первое конфигурируемое количество отсчетов 145 аудио сигнала. Кроме того, процессор 110 обработки сигналов выполнен с возможностью повышения частоты дискретизации аудио сигнала на конфигурируемый коэффициент повышения частоты дискретизации, для получения обработанного аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью вывода второго кадра 150 аудио сигнала, имеющего второе конфигурируемое количество отсчетов 155 обработанного аудио сигнала.

Конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов на основе информации ci конфигурации так, что конфигурируемый коэффициент повышения частоты дискретизации, равен первому значению повышения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения. Кроме того, конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен отличающемуся второму значению повышения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения. Причем это первое или второе значение отношения не является целочисленным значением.

Устройство согласно фиг. 1 может, например, быть использовано в процессе декодирования.

Согласно одному варианту осуществления, конфигуратор 120 может быть выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что отличающееся второе значение повышения частоты дискретизации, больше первого отличающегося значения повышения частоты дискретизации, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов больше первого отношения второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов. В еще одном варианте осуществления, конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен первому значению отношения, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен отличающемуся второму значению отношения, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения.

В еще одном варианте осуществления, конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен 2, когда первое отношение имеет первое значение отношения, и причем этот конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации, равен 8/3, когда второе отношение имеет отличающееся второе значение отношения. Согласно еще одному варианту осуществления, конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что первое конфигурируемое количество отсчетов равно 1024, и второе конфигурируемое количество отсчетов равно 2048, когда первое отношение имеет первое значение отношения, и причем конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов так, что это первое конфигурируемое количество отсчетов равно 768, и второе конфигурируемое количество отсчетов равно 2048, когда второе отношение имеет отличающееся второе значение отношения.

В одном варианте осуществления конфигуратор 120 выполнен с возможностью конфигурирования процессора 110 обработки сигналов на основе информации ci конфигурации, причем информация ci конфигурации указывает коэффициент повышения частоты дискретизации, первое конфигурируемое количество отсчетов аудио сигнала и второе конфигурируемое количество отсчетов обработанного аудио сигнала, причем эта информация конфигурации является индексом конфигурации.

В нижеследующей таблице представлен пример для индекса конфигурации как информации конфигурации:

Index (Индекс)	coreCoderFrameLength (длина Кадра Базового Кодера)	sbrRatio (отношение sbr)	outputFrameLength (длина Выходного Кадра)
2	768	8:3	2048
3	1024	2:1	2048

в которой "Index" указывает индекс конфигурации, в которой "coreCoderFrameLength" указывает первое конфигурируемое количество отсчетов аудио сигнала, в которой "sbrRatio" указывает коэффициент повышения частоты дискретизации, и в которой "outputFrameLength" указывает второе конфигурируемое количество отсчетов обработанного аудио сигнала.

На фиг. 2 изображено устройство согласно еще одному варианту осуществления. Это устройство содержит процессор 205 обработки сигналов и конфигуратор 208. Процессор 205 обработки сигналов содержит модуль 210 базового декодера, набор 220 фильтров для анализа, генератор 230 поддиапазонов и набор 240 фильтров для синтеза.

Модуль 210 базового декодера выполнен с возможностью приема аудио сигнала as1. После приема аудио сигнала as1, модуль 210 базового декодера декодирует аудио сигнал для получения предварительно обработанного аудио сигнала as2. Далее, модуль 210 базового декодера подает предварительно обработанный аудио сигнал as2, который представлен во временной области, в набор 220 фильтров для анализа.

Набор 220 фильтров для анализа выполнен с возможностью преобразования предварительно обработанного аудио сигнала as2 из временной области в частотную область для получения предварительно обработанного аудио сигнала as3 частотной области, содержащего множество сигналов поддиапазонов. Набор 220 фильтров для анализа имеет конфигурируемое количество каналов набора фильтров для анализа (полосы частот набора фильтров для анализа). Количество каналов набора фильтров для анализа определяет количество сигналов поддиапазонов, которые генерируются из предварительно обработанного аудио сигнала as2 временной области. В одном варианте осуществления, количество каналов набора фильтров для анализа может быть определено посредством установки значения конфигурируемого параметра c1. Например, набор 220 фильтров для анализа может конфигурироваться с 32 или 24 каналами набора фильтров для анализа. В варианте осуществления по фиг. 2, количество каналов набора фильтров для анализа может устанавливаться согласно информации ci конфигурации конфигуратора 208. После преобразования предварительно обработанного аудио сигнала as2 в частотную область, набор 220 фильтров для анализа подает предварительно обработанный аудио сигнал as3 частотной области в генератор 230 поддиапазонов.

Генератор 230 поддиапазонов выполнен с возможностью создания дополнительных сигналов поддиапазонов для аудио сигнала as3 частотной области. Кроме того, генератор 230 поддиапазонов выполнен с возможностью модификации предварительно обработанного аудио сигнала as3 частотной области для получения модифицированного аудио сигнала as4 частотной области, который содержит сигналы поддиапазонов предварительно обработанного аудио сигнала as3 частотной области и созданные дополнительные сигналы поддиапазонов, которые созданы генератором 230 поддиапазонов. Количество дополнительных сигналов поддиапазонов, которые генерируются генератором 230 поддиапазонов, является конфигурируемым. В одном варианте осуществления, генератор поддиапазонов является Средством репликации спектральной полосы (Spectral Band Replicator, SBR). После этого генератор 230 поддиапазонов подает модифицированный предварительно обработанный аудио сигнал as4 частотной области в набор фильтров для синтеза.

Набор 240 фильтров для синтеза выполнен с возможностью преобразования модифицированного предварительно обработанного аудио сигнала as4 частотной области из частотной области во временную область для получения обработанного аудио сигнала as5 временной области. Набор 240 фильтров для синтеза имеет конфигурируемое количество каналов набора фильтров для синтеза (полосы частот набора фильтров для синтеза). Количество каналов набора фильтров для синтеза является конфигурируемым. В одном варианте осуществления, количество каналов набора фильтров для синтеза может быть определено посредством установки значения конфигурируемого параметра c2. Например, набор 240 фильтров для синтеза может конфигурироваться так, чтобы иметь 64 канала набора фильтров для синтеза. В варианте осуществления по фиг. 2, информация ci конфигурации конфигуратора 208 может устанавливать количество каналов набора фильтров для анализа. Посредством преобразования модифицированного предварительно обработанного аудио сигнала as4 частотной области во временную область, получают обработанный аудио сигнал as5.

В одном варианте осуществления, количество каналов поддиапазонов модифицированного предварительно обработанного аудио сигнала as4 частотной области равно количеству каналов набора фильтров для синтеза. В этом варианте осуществления конфигуратор 208 выполнен с возможностью конфигурирования упомянутого количества дополнительных каналов поддиапазонов, которые создаются генератором 230 поддиапазонов. Конфигуратор 208 может быть выполнен с возможностью конфигурирования упомянутого количества дополнительных каналов поддиапазонов, которые создаются генератором 230 поддиапазонов так, что количество каналов c2 набора фильтров для синтеза, конфигурируемое конфигуратором 208, равно количеству каналов поддиапазонов предварительно обработанного аудио сигнала as3 частотной области плюс количество дополнительных сигналов поддиапазонов, создаваемых генератором 230 поддиапазонов. Соответственно, количество каналов набора фильтров для синтеза равно количеству сигналов поддиапазонов модифицированного предварительно обработанного аудио сигнала as4 частотной области.

С предположением того, что аудио сигнал as1 имеет частоту дискретизации (sampling rate) sr1, и с предположением того, что набор 220 фильтров для анализа имеет c1 канал набора фильтров для анализа, и что набор 240 фильтров для синтеза имеет c2 каналов набора фильтров для синтеза, обработанный аудио сигнал as5 имеет частоту дискретизации sr5:

sr5=(c2/c1)-sr1

c2/c1 определяет коэффициент u повышения частоты дискретизации:

u=c2/c1

В варианте осуществления по фиг. 2, коэффициент u повышения частоты дискретизации, может быть установлен равным некоторому числу, которое не является целочисленным значением. Например, коэффициент u повышения частоты дискретизации, может быть установлен в значение 8/3, при установке количества каналов набора фильтров для анализа: c1=24, и при установке количества каналов набора фильтров для синтеза: c2=64, так что:

u=8/3=64/24.

С предположением того, что генератором 230 поддиапазонов является Средство репликации спектральной полосы, Средство репликации спектральной полосы согласно одному варианту осуществления может генерировать произвольное количество дополнительных поддиапазонов из исходных поддиапазонов, причем отношение количества генерируемых дополнительных поддиапазонов к количеству уже доступных поддиапазонов не обязательно должно являться целым числом. Например, Средство репликации спектральной полосы согласно одному варианту осуществления может осуществлять следующие этапы:

На первом этапе, Средство репликации спектральной полосы реплицирует количество сигналов поддиапазонов посредством генерирования некоторого количества дополнительных поддиапазонов, причем это количество генерируемых дополнительных поддиапазонов может являться целым числом, кратным количеству уже доступных поддиапазонов. Например, из 24 исходных сигналов поддиапазонов аудио сигнала может быть сгенерировано 24 (или, например, 48) дополнительных сигналов поддиапазонов (например, общее количество сигналов поддиапазонов может быть удвоено или утроено).

На втором этапе, с предположением того, что требуемое количество сигналов поддиапазонов равно cl2, и количество фактических доступных сигналов поддиапазонов равно c11, можно выделить три различные ситуации:

Если c11 равно c12, то количество c11 доступных сигналов поддиапазонов равно количеству c12 требуемых сигналов поддиапазонов. Настройка поддиапазонов не требуется.

Если c12 меньше c11, то количество c11 доступных сигналов поддиапазонов больше количества c12 требуемых сигналов поддиапазонов. Согласно одному варианту осуществления, могут быть удалены самые высокочастотные сигналы поддиапазонов. Например, если 64 сигнала поддиапазонов являются доступными, и если требуется только 61 сигнал поддиапазонов, то три сигнала поддиапазонов с самой высокой частотой могут быть сброшены.

Если c12 больше c11, то количество c11 доступных сигналов поддиапазонов меньше количества c12 требуемых сигналов поддиапазонов.

Согласно одному варианту осуществления, дополнительные сигналы поддиапазонов могут генерироваться посредством добавления нулевых сигналов в качестве дополнительных сигналов поддиапазонов, то есть сигналов, у которых значения амплитуды каждого отсчета поддиапазона равны нулю. Согласно другому варианту осуществления, дополнительные сигналы поддиапазонов могут генерироваться посредством добавления псевдослучайных сигналов поддиапазонов в качестве дополнительных сигналов поддиапазонов, то есть сигналов поддиапазонов, в которых значения каждого отсчета поддиапазона содержат псевдослучайные данные. В еще одном варианте осуществления, дополнительные сигналы поддиапазонов могут генерироваться посредством копирования значений отсчетов сигнала самого высокого поддиапазона или сигналов самых высоких поддиапазонов, и они могут использоваться в качестве значений отсчетов дополнительных сигналов поддиапазонов (копируемые сигналы поддиапазонов).

В средстве репликации спектральной полосы согласно одному варианту осуществления, могут копироваться доступные поддиапазоны полосы модулирующих частот, и использоваться в качестве самых высоких поддиапазонов так, чтобы все поддиапазоны были заполнены. Идентичный поддиапазон полосы модулирующих частот может копироваться дважды или многократно, так что все недостающие поддиапазоны могут быть заполнены значениями.

На фиг. 3 изображен процесс повышения частоты дискретизации, осуществляемый устройством согласно одному варианту осуществления. Изображены аудио сигнал 310 временной области и некоторые отсчеты 315 аудио сигнала 310. Аудио сигнал преобразуется в частотную область, например, частотно-временную область для получения аудио сигнала 320 частотной области, содержащего три сигнала 330 поддиапазонов. (В этом упрощенном примере предполагается то, что набор фильтров для анализа содержит 3 канала). Сигналы поддиапазонов аудио сигнала 330 частотной области могут после этого реплицироваться для получения трех дополнительных сигналов 335 поддиапазонов, так что аудио сигнал 320 частотной области содержит три исходных сигнала 330 поддиапазонов и три сгенерированных дополнительных сигнала 335 поддиапазонов. После этого генерируются еще два дополнительных сигнала 338 поддиапазонов, например, сигналы нуля, псевдослучайные сигналы поддиапазонов или скопированные сигналы поддиапазонов. После этого аудио сигнал частотной области обратно преобразуется во временную область, в результате чего получается аудио сигнал 350 временной области, имеющий частоту дискретизации, которая в 8/3 раз больше частоты дискретизации исходного аудио сигнала 310 временной области.

На фиг. 4 изображено устройство согласно еще одному варианту осуществления. Это устройство содержит процессор 405 обработки сигналов и конфигуратор 408. Процессор 405 обработки сигналов содержит модуль 210 базового декодера, набор 220 фильтров для анализа, генератор 230 поддиапазонов и набор 240 фильтров для синтеза, которые соответствуют соответствующим блокам в варианте осуществления по фиг. 2. Процессор 405 обработки сигналов также содержит декодер 410 Многоканальной стереофонии MPEG (декодер MPS) для декодирования предварительно обработанного аудио сигнала для получения предварительно обработанного аудио сигнала с стерео- или пространственными каналами. Генератор 230 поддиапазонов выполнен с возможностью подачи предварительно обработанного аудио сигнала частотной области в декодер 410 Многоканальной стереофонии MPEG после создания дополнительных сигналов поддиапазонов для предварительно обработанного аудио сигнала частотной области и добавления их к предварительно обработанному аудиосигналу частотной области.

На фиг. 5A изображен модуль базового декодера согласно одному варианту осуществления. Модуль базового декодера содержит первый базовый декодер 510 и второй базовый декодер 520. Первый базовый декодер 510 выполнен с возможностью функционирования во временной области, и причем второй базовый декодер 520 выполнен с возможностью функционирования в частотной области. На фиг. 5A, первый базовый декодер 510 является декодером ACELP, и второй базовый декодер 520 является декодером с преобразованием FD, например декодером с преобразованием AAC. В альтернативном варианте осуществления, второй базовый декодер 520 является декодером с преобразованием TCX. В зависимости от того, содержит ли поступающая часть asp аудио сигнала речевые данные или другие аудиоданные, эта поступающая часть asp аудио сигнала обрабатывается или декодером 510 ACELP, или декодером 520 с преобразованием FD. Вывод модуля базового декодера является предварительно обработанной частью аудио сигнала pp-asp.

В одном варианте осуществления, размер суперкадра для кодека ACELP сокращается с 1024 до 768 отсчетов. Это может быть выполнено посредством объединения 4 кадров ACELP размером 192 (3 подкадра размером 64) в один кадр базового кодера размером 768 (ранее: 4 кадра ACELP размером 256 объединялись в кадр базового кодера размером 1024). На фиг. 6A изображен суперкадр 605 ACELP, содержащий 4 кадра 610 ACELP. Каждый из кадров 610 ACELP содержит 3 подкадра 615.

Другим решением для достижения размера кадра базового кодера 768 отсчетов является, например, объединение 3 кадров ACELP размером 256 (4 подкадра размером 64). На фиг. 6B изображен суперкадр 625 ACELP, содержащий 3 кадра 630 ACELP. Каждый из кадров 630 ACELP содержит 4 подкадра 635.

На фиг. 7B описана предлагаемая дополнительная настройка из перспективного декодера, и она сравнивается с обычной настройкой USAC. На фиг. 7A и фиг. 7B описывается структура декодера, обычно используемая в режимах работы 24 кбит/сек или 32 кбит/сек.

На фиг. 7A, иллюстрирующей RM9 USAC (USAC reference model 9, опорная модель 9 USAC), настройка по умолчанию, кадр аудио сигнала вводится в набор 710 фильтров QMF для анализа. Набор 710 фильтров QMF для анализа имеет 32 канала. Набор 710 фильтров QMF для анализа выполнен с возможностью преобразования аудио сигнала временной области в частотную область, причем этот аудио сигнал частотной области содержит 32 поддиапазона. После этого аудио сигнал частотной области вводится в блок 720 повышения частоты дискретизации. Блок 720 повышения частоты дискретизации выполнен с возможностью повышения частоты дискретизации аудио сигнала частотной области на коэффициент 2 повышения частоты дискретизации. Соответственно, блоком повышения частоты дискретизации генерируется выходной сигнал частотной области блока повышения частоты дискретизации, содержащий 64 поддиапазона. Блок 720 повышения частоты дискретизации является блоком повышения частоты дискретизации SBR (Spectral Band Replication, Репликация спектральной полосы). Как уже упоминалось, Репликация спектральной полосы используется для генерации поддиапазонов более высокой частоты из поддиапазонов более низкой частоты, вводимых в средство репликации спектральной полосы.

После этого аудио сигнал частотной области с повышенной частотой дискретизации подается в декодер 730 Многоканальной стереофонии MPEG (MPS). Декодер 730 MPS выполнен с возможностью декодирования смешанного с понижением частоты пространственного сигнала для извлечения каналов частотной области пространственного сигнала. Например, декодер 730 MPS может быть выполнен с возможностью генерации 2 смешанных с повышением частоты пространственных каналов частотной области пространственного сигнала частотной области. В еще одном варианте осуществления, декодер 730 MPS может быть выполнен с возможностью генерации 5 смешанных с повышением частоты пространственных каналов частотной области пространственного сигнала частотной области. После этого каналы пространственного сигнала частотной области подаются в набор 740 фильтров QMF для синтеза. Набор 740 фильтров QMF для синтеза выполнен с возможностью преобразования каналов пространственного сигнала частотной области во временную область для получения каналов временной области пространственного сигнала.

Как можно видеть, декодер USAC функционирует со своей настройкой по умолчанию как система 2:1. Базовый кодек функционирует с величиной детализации 1024 отсчетов/кадр при вдвое меньшей частоте дискретизации на выходе f_out. Повышение частоты дискретизации на коэффициент 2 неявно выполняется внутри инструментального средства SBR при комбинировании 32-полосного набора фильтров QMF для анализа с 64-полосным набором QMF для синтеза, работающих при идентичной частоте. Инструментальное средство SBR выводит кадры размером 2048 с f_out.

На фиг. 7B иллюстрируется предлагаемая специальная настройка для USAC. Изображены набор 750 фильтров QMF для анализа, блок 760 повышения частоты дискретизации, декодер 770 MPS и набор 780 фильтров для синтеза.

В отличие от настройки по умолчанию, кодек USAC функционирует с предлагаемой специальной настройкой как система 8/3. Базовый кодер работает при 3/8-х от частоты дискретизации на выходе f_out. В идентичном контексте, размер кадра базового кодера был сокращен на коэффициент ¾. С комбинацией 24-полосного набора фильтров QMF для анализа и 64-полосного набора фильтров (QMF) для синтеза в инструментальном средстве SBR, может быть достигнута частота дискретизации на выходе f_out при длине кадра 2048 отсчетов.

Эта настройка обеспечивает возможность очень большого увеличения величины детализации во времени как для базового кодера, так и для дополнительных инструментальных средств. Тогда как инструментальные средства, например, SBR и Многоканальная стереофония MPEG могут функционировать при более высокой частоте дискретизации, частота дискретизации базового кодера сокращается, и взамен длина кадра уменьшается. Соответственно, все компоненты могут работать в своих оптимальных условиях.

В одном варианте осуществления, кодер AAC, используемый как базовый кодер, может по-прежнему определять масштабные коэффициенты на основе частоты дискретизации в половину f_out, даже если кодер AAC функционирует с 3/8 от частоты дискретизации на выходе f_out.

В нижеприведенной таблице подробно описаны величины по частотам дискретизации и длительности кадра для USAC, используемые в кодере опорного качества USAC. Как можно видеть, длительность кадра в предлагаемой новой настройке может быть сокращена почти на 25%, что приводит к положительным эффектам для всех нестационарных сигналов, так как распространение шума кодирования также может быть сокращено на идентичное отношение. Это сокращение может быть достигнуто без увеличения частоты дискретизации базового кодера, что приводит к выходу инструментального средства ACELP за пределы своего оптимизированного рабочего диапазона.

	Частота дискретизации Базовый кодер	Частота дискретизации SBR	Длительность каждого кадра
USAC по умолчанию	17075 Гц	34150Гц	60 мс
Предлагаемая новая установка	16537,5 Гц	44100 Гц	46 мс

В таблице представлены частоты дискретизации и длительность кадра для значения по умолчанию и предлагаемой новой настройки, используемой в кодере опорного качества, при 24 кбит/сек.

Ниже, для реализации предлагаемой новой настройки, более подробно описываются необходимые модификации декодера USAC.

В отношении кодера с преобразованием, с масштабированием размеров окна и преобразования на коэффициент ¾ можно легко достичь более коротких размеров кадра. Тогда как кодер FD в стандартном режиме функционирует с размерами преобразования 1024 и 128, посредством новой настройки вводятся дополнительные преобразования размера 768 и 96. Для TCX, требуется дополнительное преобразование размера 768, 384 и 192. Кроме задания новых размеров преобразования согласно коэффициентам окна, кодер с преобразованием может оставаться неизменным.

Относительно инструментального средства ACELP, общий размер кадра должен быть адаптирован к 768 отсчетам. Один способ достижения этой цели состоит в том, чтобы оставить общую структуру кадра неизменной с 4 кадрами ACELP, состоящими из 192 отсчетов, которые помещаются в каждый кадр, состоящий из 768 отсчетов. Адаптация к сокращенному размеру кадра достигается посредством сокращения количества подкадров в каждом кадре с 4 до 3. Длина подкадра ACELP является неизменной, 64 отсчета. Для обеспечения возможности сокращенного количества подкадров, информация основного тона кодируется с использованием несколько отличающейся схемы: три значения основного тона кодируются с использованием абсолютно-относительно-относительной схемы, использующей 9, 6 и 6 битов соответственно, вместо абсолютно-относительно-абсолютно-относительной схемы, использующей 9, 6, 9 и 6 битов, в стандартной модели. Однако возможны другие способы кодирования информации основного тона. Другие элементы кодека ACELP, например, кодовые книги ACELP, а также различные квантователи (фильтры LPC, усилители и т.д.), остаются неизменными.

Другим способом достижения общего размера кадра 768 отсчетов может являться объединение трех кадров ACELP размером 256 для одного кадра базового кодера размером 768.

Функциональные возможности инструментального средства SBR остаются неизменными. Однако, дополнительным к 32-полосному набору QMF для анализа, требуется 24-полосный QMF для анализа для того, чтобы обеспечить повышение частоты дискретизации коэффициентом 8/3.

В нижеследующем описании раскрыто влияние предлагаемого специального режима работы на вычислительную сложность. Это сначала делается на основе для каждого инструментального средства кодека, и в конце подводятся итоги. Упомянутая сложность сравнивается с заданным по умолчанию режимом низкой частоты дискретизации и с режимом более высокой частоты дискретизации, используемым кодером опорного качества USAC на более высоких скоростях передачи битов, что является сопоставимым с соответствующей настройкой ОН-AACv2 для этих режимов работы.

Относительно кодера с Преобразованием, сложность частей кодера с преобразованием изменяется пропорционально частоте дискретизации и длине преобразования. Предлагаемые частоты дискретизации базового кодера остаются примерно одинаковыми. Размеры преобразования сокращаются на коэффициент ¾. Соответственно, вычислительная сложность сокращается согласно почти идентичному коэффициенту, с предположением подхода смешанного основания системы счисления для лежащих в основе FFT. В целом, ожидается, что сложность декодера на основе преобразования будет несколько сокращена по сравнению с текущим режимом работы USAC, и сокращена на коэффициент ¾, по сравнению с рабочим режимом высокой дискретизации.

В отношении ACELP, сложность инструментальных средств ACELP в основном формируется из следующих операций.

Декодирование возбуждения: сложность этой операции является пропорциональной количеству подкадров в секунду, которое, в свою очередь, является прямо пропорциональным частоте дискретизации базового кодера (причем размер подкадра остается неизменным, 64 отсчета). Это является, следовательно, почти идентичным новой настройке.

Фильтрация LPC и другие операции синтеза, включающие в себя постфильтр нижних частот: сложность этой операции является прямо пропорциональной частоте дискретизации базового кодера, и является, следовательно, почти неизменной.

В целом, ожидается, что ожидаемая сложность декодера ACELP будет неизменной по сравнению с текущим режимом работы USAC, и будет сокращена на коэффициент ¾ по сравнению с рабочим режимом высокой дискретизации.

Относительно SBR, основной вклад в сложность SBR вносят наборы фильтров QMF. Сложность здесь изменяется пропорционально размеру преобразования и частоте дискретизации. В частности, сложность набора фильтров для анализа сокращается согласно коэффициенту, примерно равному ¾.

В отношении Многоканальной стереофонии MPEG, сложность части Многоканальной стереофонии MPEG изменяется пропорционально частоте дискретизации. Предлагаемый специальный рабочий режим не оказывает прямого влияния на сложность инструментального средства Многоканальной стереофонии MPEG.

В совокупности, сложность предлагаемого нового рабочего режима, как обнаружено, является несколько большей по сравнению с режимом низкой частоты дискретизации, но меньше сложности декодера USAC при работе в режиме более высокой частоты дискретизации (RM9 USAC, высокая SR (sampling rate, частота дискретизации): 13,4 MOPS, предлагаемый новый режим работы: 12,8 MOPS).

Для тестируемого режима работы, сложность оценивается следующим образом:

RM9 USAC, функционирующий при 34,15 кГц: примерно 4,6 WMOPS,

RM9 USAC, функционирующий при 44,1 кГц: примерно 5,6 WMOPS,

предлагаемый новый режим работы: примерно 5,0 WMOPS

Так как ожидается, что декодер USAC должен обрабатывать частоты дискретизации до 48 кГц в своей заданной по умолчанию конфигурации, то не ожидается препятствий при этом предлагаемом новом режиме работы.

В отношении требования к памяти, предлагаемый специальный рабочий режим требует хранения дополнительных прототипов окна MDCT, что в общей сложности составляет меньше 900 слов (32 бита) дополнительно требуемой ROM. В свете общего требования к ROM декодера - примерно 25 К слов, это представляется незначительным.

Результаты теста на прослушивание показывают значимое улучшение для музыкальных и смешанных элементов тестирования, без ухудшения качества для речевых элементов. Эта специальная настройка подразумевается как дополнительный рабочий режим кодека USAC.

Тест на прослушивание согласно способу MUSHRA осуществлялся для оценки эксплуатационных качеств предлагаемой новой настройки при 24 кбит/сек моно. В тесте содержались следующие условия: Скрытая опорная частота, привязка низкочастотного пропускания 3,5 кГц, опорное качество USAC WD7 (WD7@34,15 кГц), USAC WD7, функционирующий при высокой частоте дискретизации (WD7@44,1 кГц), и опорное качество USAC WD7, предлагаемой новой настройки (WD7_CE@44,1 кГц).

Тест охватил 12 элементов тестирования из тестовой совокупности USAC, и следующие дополнительные элементы: si02: кастаньеты, velvet (мягкость): электронная музыка, и xylophone (ксилофон): музыкальная шкатулка.

На фиг. 8A и фиг. 8B представлены результаты теста. В тесте на прослушивание участвовали 22 предмета. Для оценки использовалось t-распределение Стьюдента.

Для оценки среднего показателя (95% уровень значимости) можно заметить, что WD7, функционирующий при более высокой частоте дискретизации 44,1 кГц, имеет эксплуатационные качества значительно хуже, чем WD7 для двух элементов (esOl, HarryPotter). Можно заметить, что между WD7 и WD7, предназначающемся для упомянутого способа, не существует значительного различия.

Для оценки разностных показателей, можно заметить, что WD7, функционирующий при 44,1 кГц, имеет эксплуатационные качества хуже, чем WD7 для 6 элементов (esOl, louis_raquin, tel, WeddingSpeech, HarryPotter, SpcechOverMusic_4) и усредненного по всем элементам. Элементы, для которых он имеет эксплуатационные качества хуже, включают в себя все чисто речевые элементы и два из смешанных речевых/музыкальных элементов. Далее можно заметить, что WD7, функционирующий при 44,1 кГц, имеет эксплуатационные качества значительно лучше, чем WD7 для четырех элементов (twinkle (дрожание), salvation (восстановление), si02, velvet (мягкость)). Все эти элементы содержат значительные части музыкальных сигналов или классифицируются как музыка.

Для тестируемого способа, можно заметить, что он имеет эксплуатационные качества лучше, чем WD7 для пяти элементов (twinkle, salvation, tel, si02, velvet), и, кроме того, при усреднении по всем элементам. Все элементы, для которых он имеет эксплуатационные качества лучше, содержат значительные части музыкальных сигналов, или классифицируются как музыка. Не было замечено никакого ухудшения.

С вышеописанными вариантами осуществления обеспечена новая настройка для средних скоростей передачи битов USAC. Эта новая настройка обеспечивает возможность кодеку USAC увеличить свою величину детализации во времени для всех соответствующих инструментальных средств, например, кодеров с преобразованием, Многоканальной стереофонии MPEG и SBR, без ухудшения качества инструментального средства ACELP. Соответственно, качество для среднего диапазона скоростей передачи битов может быть улучшено, в частности, для музыкальных и смешанных сигналов c высокой временной структурой. Далее, увеличивается гибкость системы USAC, так как кодек USAC, включающий в себя инструментальное средство ACELP, может теперь использоваться в более широком диапазоне частот дискретизации, например, 44,1 кГц.

На фиг. 9 изображено устройство для обработки аудио сигнала. Это устройство содержит процессор 910 обработки сигналов и конфигуратор 920. Процессор 910 обработки сигналов выполнен с возможностью приема первого кадра 940 аудио сигнала, имеющего первое конфигурируемое количество отсчетов 945 аудио сигнала. Кроме того, процессор 910 обработки сигналов выполнен с возможностью понижения частоты дискретизации аудио сигнала на конфигурируемый коэффициент понижения частоты дискретизации, для получения обработанного аудио сигнала. Кроме того, процессор обработки сигналов выполнен с возможностью вывода второго кадра 950 аудио сигнала, имеющего второе конфигурируемое количество отсчетов 955 обработанного аудио сигнала.

Конфигуратор 920 выполнен с возможностью конфигурирования процессора 910 обработки сигналов на основе информации ci2 конфигурации так, что конфигурируемый коэффициент понижения частоты дискретизации, равен первому значению понижения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения. Кроме того, конфигуратор 920 выполнен с возможностью конфигурирования процессора 910 обработки сигналов так, что конфигурируемый коэффициент понижения частоты дискретизации, равен отличающемуся второму значению понижения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения. Причем это первое или второе значение отношения не является целочисленным значением.

Устройство согласно фиг. 9 может, например, быть использовано в процессе кодирования.

Несмотря на то, что некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, причем блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

Соответствующий изобретению разложенный на составные части сигнал может быть сохранен на цифровом носителе информации или может быть передан по передающей среде, например, беспроводной передающей среде или проводной передающей среде, например, по сети Internet.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программных средствах. Реализация может быть выполнена с использованием цифрового носителя информации, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или ФЛЭШ-памяти, на котором сохраняют электронно считываемые управляющие сигналы, которые взаимодействуют (или могут взаимодействовать) с программируемой компьютерной системой так, что выполняется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат невременный носитель информации, содержащий электронно считываемые управляющие сигналы, которые могут взаимодействовать с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем этот программный код функционирует для выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код может, например, хранится на машиночитаемом носителе информации.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в этом документе, хранящуюся на машиночитаемом носителе информации.

Другими словами, одним вариантом осуществления соответствующего изобретению способа является, следовательно, компьютерная программа, содержащая программный код для выполнения одного из способов, описанных в этом документе, когда эта компьютерная программа исполняется на компьютере.

Еще одним вариантом осуществления соответствующих изобретению способов является, следовательно, носитель информации (или цифровой носитель информации, или машиночитаемый носитель информации), содержащий, записанную на нем, компьютерную программу для выполнения одного из способов, описанных в этом документе.

Еще одним вариантом осуществления соответствующего изобретению способа является, следовательно, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Упомянутые поток данных или последовательность сигналов могут, например, быть сконфигурированы для передачи через соединение для передачи данных, например, через сеть Internet.

Еще один вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, конфигурируемое для или выполненное с возможностью выполнения одного из способов, описанных в этом документе.

Еще один вариант осуществления содержит компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанных в этом документе.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в этом документе. В общем, упомянутые способы предпочтительно выполняются любым аппаратным устройством.

Вышеупомянутые описанные варианты осуществления только иллюстрируют принципы настоящего изобретения. Подразумевается, что для других специалистов в данной области техники модификации и отклонения от компоновки и деталей, описанных в этом документе, являются очевидными. Следовательно, ограничения определяются только объемом приведенной ниже формулы изобретения, а не конкретными деталями, представленными посредством описания и раскрытия в этом документе вариантов осуществления.

Claims

1. Устройство для обработки аудио сигнала, содержащее: процессор (110, 205, 405) обработки сигналов, выполненный с возможностью приема первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов аудио сигнала, выполненный с возможностью повышения частоты дискретизации упомянутого аудио сигнала посредством конфигурируемого коэффициента повышения частоты дискретизации для получения обработанного аудио сигнала и выполненный с возможностью вывода второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала, и
конфигуратор (120, 208, 408), выполненный с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов,
причем конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов на основе информации конфигурации так, что конфигурируемый коэффициент повышения частоты дискретизации равен первому значению повышения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен отличающемуся второму значению повышения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения, и причем упомянутое первое или упомянутое второе значение отношения не является целочисленным значением.

2. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что отличающееся второе значение повышения частоты дискретизации больше первого значения повышения частоты дискретизации, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов больше первого отношения второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов.

3. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен первому значению отношения, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем этот конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен отличающемуся второму значению отношения, когда второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения.

4. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен 2, когда первое отношение имеет первое значение отношения, и причем этот конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что конфигурируемый коэффициент повышения частоты дискретизации равен 8/3, когда второе отношение имеет отличающееся второе значение отношения.

5. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что первое конфигурируемое количество отсчетов равно 1024, и второе конфигурируемое количество отсчетов равно 2048, когда первое отношение имеет первое значение отношения, и причем этот конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов так, что это первое конфигурируемое количество отсчетов равно 768, и второе конфигурируемое количество отсчетов равно 2048, когда второе отношение имеет отличающееся второе значение отношения.

6. Устройство по п. 1, в котором процессор (110, 205, 405) обработки сигналов содержит:
модуль (210) базового декодера для декодирования аудио сигнала для получения предварительно обработанного аудио сигнала,
набор (220) фильтров для анализа, имеющий несколько каналов набора фильтров для анализа, для преобразования первого предварительно обработанного аудио сигнала из временной области в частотную область для получения предварительно обработанного аудио сигнала частотной области, содержащего множество сигналов поддиапазонов,
генератор (230) поддиапазонов для создания и добавления дополнительных сигналов поддиапазонов для предварительно обработанного аудио сигнала частотной области, и
набор (240) фильтров для синтеза, имеющий несколько каналов набора фильтров для синтеза, для преобразования первого предварительно обработанного аудио сигнала из частотной области во временную область для получения обработанного аудио сигнала,
причем конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов посредством конфигурирования упомянутого количества каналов набора фильтров для синтеза или упомянутого количества каналов набора фильтров для анализа так, что конфигурируемый коэффициент повышения частоты дискретизации равен третьему отношению количества каналов набора фильтров для синтеза к количеству каналов набора фильтров для анализа.

7. Устройство по п. 6, в котором генератор (230) поддиапазонов является средством репликации спектральной полосы, выполненным с возможностью репликации сигналов поддиапазонов генератора предварительно обработанного аудио сигнала, для создания дополнительных сигналов поддиапазонов для предварительно обработанного аудио сигнала частотной области.

8. Устройство по п. 6, в котором процессор (110, 205, 405) обработки сигналов также содержит декодер (410) Многоканальной стереофонии MPEG для декодирования предварительно обработанного аудио сигнала для получения предварительно обработанных аудио сигналов, содержащих стерео- или пространственные каналы,
причем генератор (230) поддиапазонов выполнен с возможностью подачи предварительно обработанного аудио сигнала частотной области в декодер (410) Многоканальной стереофонии MPEG после создания дополнительных сигналов поддиапазонов для предварительно обработанного аудио сигнала частотной области и добавления их к предварительно обработанному аудио сигналу частотной области.

9. Устройство по п. 6, в котором модуль (210) базового декодера содержит первый базовый декодер (510) и второй базовый декодер (520), причем первый базовый декодер (510) выполнен с возможностью функционирования во временной области, и причем второй базовый декодер (520) выполнен с возможностью функционирования в частотной области.

10. Устройство по п. 9, в котором первый базовый декодер (510) является декодером ACELP, и в котором второй базовый декодер (520) является декодером с преобразованием FD или декодером с преобразованием ТСХ.

11. Устройство по п. 10, в котором декодер (510) ACELP выполнен с возможностью обработки первого кадра аудио сигнала, причем этот первый кадр аудио сигнала содержит 4 кадра ACELP, и причем каждый из кадров ACELP содержит 192 отсчета аудио сигнала, когда первое конфигурируемое количество отсчетов первого кадра аудио сигнала равно 768.

12. Устройство по п. 10, в котором декодер (510) ACELP выполнен с возможностью обработки первого кадра аудио сигнала, причем этот первый кадр аудио сигнала содержит 3 кадра ACELP, и причем каждый из кадров ACELP содержит 256 отсчетов аудио сигнала, когда первое конфигурируемое количество отсчетов первого кадра аудио сигнала равно 768.

13. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов на основе информации конфигурации, указывающей по меньшей мере одно из первого конфигурируемого количества отсчетов аудио сигнала и второго конфигурируемого количества отсчетов обработанного аудио сигнала.

14. Устройство по п. 1, в котором конфигуратор (120, 208, 408) выполнен с возможностью конфигурирования процессора (110, 205, 405) обработки сигналов на основе информации конфигурации, причем эта информация конфигурации указывает первое конфигурируемое количество отсчетов аудио сигнала и второе конфигурируемое количество отсчетов обработанного аудио сигнала, причем эта информация конфигурации является индексом конфигурации.

15. Способ обработки аудио сигнала, содержащий:
конфигурирование конфигурируемого коэффициента повышения частоты дискретизации, прием первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов упомянутого аудио сигнала, и
повышение частоты дискретизации аудио сигнала посредством конфигурируемого коэффициента повышения частоты дискретизации для получения обработанного аудио сигнала, и являющегося адаптированным к выводу второго аудио кадра, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала, и
причем конфигурируемый коэффициент повышения частоты дискретизации конфигурируется на основе информации конфигурации так, что этот конфигурируемый коэффициент повышения частоты дискретизации равен первому значению повышения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем конфигурируемый коэффициент повышения частоты дискретизации конфигурируется так, что этот конфигурируемый коэффициент повышения частоты дискретизации равен отличающемуся второму значению повышения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения, и причем упомянутое первое или упомянутое второе значение отношения не является целочисленным значением.

16. Устройство для обработки аудио сигнала, содержащее:
процессор (910) обработки сигналов, выполненный с возможностью приема первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов аудио сигнала, выполненный с возможностью понижения частоты дискретизации упомянутого аудио сигнала посредством конфигурируемого коэффициента понижения частоты дискретизации для получения обработанного аудио сигнала и выполненный с возможностью вывода второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала, и
конфигуратор (920), выполненный с возможностью конфигурирования процессора обработки сигналов,
причем конфигуратор (920) выполнен с возможностью конфигурирования процессора (910) обработки сигналов на основе информации конфигурации так, что конфигурируемый коэффициент понижения частоты дискретизации равен первому значению понижения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем конфигуратор (920) выполнен с возможностью конфигурирования процессора (910) обработки сигналов так, что конфигурируемый коэффициент понижения частоты дискретизации равен отличающемуся второму значению понижения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения, и причем упомянутое первое или упомянутое второе значение отношения не является целочисленным значением.

17. Устройство по п. 16, в котором конфигуратор выполнен с возможностью конфигурирования процессора (910) обработки сигналов так, что первое значение понижения частоты дискретизации меньше отличающегося второго значения понижения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов меньше второго отношения второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов.

18. Способ обработки аудио сигнала, содержащий:
конфигурирование конфигурируемого коэффициента понижения частоты дискретизации,
прием первого кадра аудио сигнала, имеющего первое конфигурируемое количество отсчетов упомянутого аудио сигнала, и
понижение частоты дискретизации аудио сигнала посредством конфигурируемого коэффициента понижения частоты дискретизации для получения обработанного аудио сигнала, и являющегося адаптированным к выводу второго кадра аудио сигнала, имеющего второе конфигурируемое количество отсчетов обработанного аудио сигнала, и
причем конфигурируемый коэффициент понижения частоты дискретизации конфигурируется на основе информации конфигурации так, что конфигурируемый коэффициент понижения частоты дискретизации равен первому значению понижения частоты дискретизации, когда первое отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет первое значение отношения, и причем конфигурируемый коэффициент понижения частоты дискретизации конфигурируется так, что этот конфигурируемый коэффициент понижения частоты дискретизации равен отличающемуся второму значению понижения частоты дискретизации, когда отличающееся второе отношение второго конфигурируемого количества отсчетов к первому конфигурируемому количеству отсчетов имеет отличающееся второе значение отношения, и причем упомянутое первое или упомянутое второе значение отношения не является целочисленным значением.

19. Машиночитаемый носитель информации, содержащий записанную на нем компьютерную программу для выполнения способа по п. 15, когда эта компьютерная программа исполняется компьютером или процессором.

20. Машиночитаемый носитель информации, содержащий записанную на нем компьютерную программу для выполнения способа по п. 18, когда эта компьютерная программа исполняется компьютером или процессором.