RU2676899C2

RU2676899C2 - Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала

Info

Publication number: RU2676899C2
Application number: RU2017103101A
Authority: RU
Inventors: Саша ДИШ; Микко-Вилле ЛАЙТИНЕН; Вилле ПУЛККИ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2019-01-11
Also published as: CN106663438A; EP3164869A1; CA2953413A1; AU2015282747A1; CA2953427C; US10283130B2; WO2016001068A1; JP2017521705A; MY192221A; MY182904A; PL3164869T3; CA2953421A1; EP3164869B1; KR102025164B1; BR112016030149B1; AR101082A1; KR20170033328A; TWI587288B; WO2016001067A1; MX356672B

Abstract

Изобретение относится к обработке аудиосигнала. Технический результат - повышение качества аудиосигнала. Модуль вычисления для определения данных фазовой коррекции для аудиосигнала содержит модуль определения варьирования для определения варьирования фазы аудиосигнала в режиме первого и второго варьирования, модуль сравнения варьирования для сравнения первого варьирования, определенного с использованием режима первого варьирования, и второго варьирования, определенного с использованием режима второго варьирования, и модуль вычисления корректирующих данных для вычисления данных фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения. 3 н. и 12 з.п. ф-лы, 59 ил.

Description

Подробное описание изобретения

Настоящее изобретение относится к аудиопроцессору и способу для обработки аудиосигнала, к декодеру и способу для декодирования аудиосигнала и к кодеру и способу для кодирования аудиосигнала. Кроме того, описываются модуль вычисления и способ для определения данных фазовой коррекции, аудиосигнал и компьютерная программа для осуществления одного из вышеуказанных способов. Другими словами, настоящее изобретение показывает коррекцию производной фазы и расширение полосы пропускания (BWE) для перцепционных аудиокодеков либо коррекцию фазового спектра сигналов с расширенной полосой пропускания в QMF-области на основе перцепционной важности.

Перцепционное кодирование аудио

Перцепционное кодирование аудио, рассматриваемое на сегодняшний день, придерживается нескольких общих тем, включающих в себя использование обработки в частотно-временной области, уменьшения избыточности (энтропийного кодирования) и удаления нерелевантности через объявленное применение перцепционных эффектов [1]. Типично, входной сигнал анализируется посредством гребенки аналитических фильтров, которая преобразует сигнал временной области в спектральное (частотно-временное) представление. Преобразование в спектральные коэффициенты предоставляет возможность избирательной обработки компонентов сигнала в зависимости от их частотного спектра (например, различных инструментов с их отдельными структурами обертона).

Параллельно, входной сигнал анализируется относительно своих перцепционных свойств, т.е., в частности, вычисляется время- и частотно-зависимое пороговое значение маскирования. Время/частотно-зависимое пороговое значение маскирования доставляется в модуль квантования через целевое пороговое значение кодирования в форме абсолютного значения энергии или отношения "маска-сигнал" (MSR) для каждой полосы частот и временного кадра кодирования.

Спектральные коэффициенты, доставляемые посредством гребенки аналитических фильтров, квантуются, чтобы уменьшать скорость передачи данных, необходимую для представления сигнала. Этот этап подразумевает потери информации и вводит искажение (ошибку, шум) при кодировании в сигнал. Чтобы минимизировать слышимое влияние этого шума кодирования, размеры шага квантователя управляются согласно целевым пороговым значениям кодирования для каждой полосы частот и кадра. В идеале, шум кодирования, введенный в каждую полосу частот, ниже порогового значения кодирования (маскирования), и в силу этого ухудшение качества субъективного аудио не является воспринимаемым (удаление нерелевантности). Это управление шумом квантования по частоте и по времени согласно психоакустическим требованиям приводит к сложному эффекту формирования шума и представляет собой то, что делает кодер перцепционным аудиокодером.

Затем, современные аудиокодеры выполняют энтропийное кодирование (например, кодирование Хаффмана, арифметическое кодирование) для квантованных спектральных данных. Энтропийное кодирование представляет собой этап кодирования без потерь, который дополнительно снижает скорость передачи битов.

В завершение, все кодированные спектральные данные и релевантные дополнительные параметры (вспомогательная информация, как, например, настройки квантователя для каждой полосы частот) пакетируются в поток битов, который является конечным кодированным представлением, предназначенным для хранения или передачи файлов.

Расширение полосы пропускания

В перцепционном кодировании аудио на основе гребенок фильтров, основная часть используемой скорости передачи битов обычно расходуется на квантованные спектральные коэффициенты. Таким образом, на очень низких скоростях передачи битов, недостаточно битов может быть доступно для того, чтобы представлять все коэффициенты с точностью, требуемой для того, чтобы достигать перцепционно ненарушенного воспроизведения. В силу этого, низкие требования по скорости передачи битов эффективно задают предел на полосу пропускания аудиосигнала, которая может получаться посредством перцепционного кодирования аудио. Расширение полосы пропускания [2] исключает это долгосрочное фундаментальное ограничение. Центральная идея расширения полосы пропускания состоит в том, чтобы дополнять перцепционный кодек с ограниченной полосой частот посредством дополнительного высокочастотного процессора, который передает и восстанавливает пропущенный высокочастотный контент в компактной параметрической форме. Высокочастотный контент может формироваться на основе модуляции с одной боковой полосой частот сигнала основной полосы частот, на основе технологий перезаписи, к примеру, используемых в репликации полос спектра (SBR) [3], или на основе применения технологий сдвига основного тона, таких как, например, вокодер [4].

Цифровые звуковые эффекты

Эффекты растягивания во времени или сдвига основного тона обычно получаются посредством применения технологий во временной области, таких как синхронизированное суммирование с перекрытием (SOLA), или технологий в частотной области (вокодер). Кроме того, предложены гибридные системы, которые применяют SOLA-обработку в подполосах частот. Вокодеры и гибридные системы обычно подвержены артефакту, называемому фазовостью [8], который может быть приписан потерям вертикальной фазовой когерентности. Некоторые публикации относятся к повышению качества звука алгоритмов растягивания во времени посредством сохранения вертикальной фазовой когерентности, когда это важно [6][7].

Аудиокодеры предшествующего уровня техники [1] обычно ухудшают перцепционное качество аудиосигналов посредством игнорирования важных фазовых свойств сигнала, который должен кодироваться. Общий план по коррекции фазовой когерентности в перцепционных аудиокодерах представлен в [9].

Тем не менее, не все виды ошибок фазовой когерентности могут корректироваться одновременно, и не все ошибки фазовой когерентности являются перцепционно важными. Например, при расширении полосы пропускания аудиосигнала, из предшествующего уровня техники непонятно, какие связанные с фазовой когерентностью ошибки должны корректироваться с наивысшим приоритетом, а какие ошибки могут оставаться только частично скорректированными или, относительно их незначительного перцепционного влияния, полностью игнорироваться.

В частности, вследствие применения расширения полосы пропускания аудиосигнала [2] [3] [4], фазовая когерентность по частоте и по времени зачастую нарушается. Результат представляет собой глухой звук, который демонстрирует слуховую нечеткость и может содержать дополнительно воспринимаемые тона, которые дезинтегрируются из слуховых объектов в исходном сигнале и, следовательно, воспринимаются как самостоятельный слуховой объект, помимо исходного сигнала. Кроме того, также может обнаруживаться то, что звук исходит с большого расстояния, при этом он является менее "шумным" и в силу этого вызывает небольшое вовлечение слушателя [5].

Следовательно, существует потребность в усовершенствованном подходе.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для обработки аудиосигнала. Эта цель разрешается посредством предмета независимых пунктов формулы изобретения.

Настоящее изобретение основано на таких выявленных сведениях, что фаза аудиосигнала может корректироваться согласно целевой фазе, вычисленной посредством аудиопроцессора или декодера. Целевая фаза может рассматриваться в качестве представления фазы необработанного аудиосигнала. Следовательно, фаза обработанного аудиосигнала регулируется с возможностью лучше соответствовать фазе необработанного аудиосигнала. В случае, например, частотно-временного представления аудиосигнала, фаза аудиосигнала может регулироваться для последующих временных кадров в подполосе частот, или фаза может регулироваться во временном кадре для последующих подполос частот. Следовательно, выявлено, что модуль вычисления автоматически обнаруживает и выбирает наиболее подходящий способ коррекции. Описанные выявленные сведения могут реализовываться в различных вариантах осуществления или совместно реализовываться в декодере и/или кодере.

Варианты осуществления показывают аудиопроцессор для обработки аудиосигнала, содержащий модуль вычисления фазовых показателей аудиосигнала, сконфигурированный с возможностью вычисления фазового показателя аудиосигнала для временного кадра. Кроме того, аудиосигнал содержит модуль определения целевых фазовых показателей для определения целевого фазового показателя для упомянутого временного кадра, и фазовый корректор, сконфигурированный с возможностью коррекции фаз аудиосигнала для временного кадра с использованием вычисленного фазового показателя и целевого фазового показателя, с тем чтобы получать обработанный аудиосигнал.

Согласно дополнительным вариантам осуществления, аудиосигнал может содержать множество подполосных сигналов для временного кадра. Модуль определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя для первого подполосного сигнала и второго целевого фазового показателя для второго подполосного сигнала. Кроме того, модуль вычисления фазовых показателей аудиосигнала определяет первый фазовый показатель для первого подполосного сигнала и второй фазовый показатель для второго подполосного сигнала. Фазовый корректор сконфигурирован с возможностью коррекции первой фазы первого подполосного сигнала с использованием первого фазового показателя аудиосигнала и первого целевого фазового показателя и коррекции второй фазы второго подполосного сигнала с использованием второго фазового показателя аудиосигнала и второго целевого фазового показателя. Следовательно, аудиопроцессор может содержать синтезатор аудиосигналов для синтезирования скорректированного аудиосигнала с использованием скорректированного первого подполосного сигнала и скорректированного второго подполосного сигнала.

В соответствии с настоящим изобретением, аудиопроцессор сконфигурирован с возможностью коррекции фазы аудиосигнала в горизонтальном направлении, т.е. коррекции во времени. Следовательно, аудиосигнал может подразделяться на набор временных кадров, при этом фаза каждого временного кадра может регулироваться согласно целевой фазе. Целевая фаза может быть представлением исходного аудиосигнала, при этом аудиопроцессор может быть частью декодера для декодирования аудиосигнала, который является кодированным представлением исходного аудиосигнала. Необязательно, горизонтальная фазовая коррекция может применяться отдельно для определенного числа подполос частот аудиосигнала, если аудиосигнал доступен в частотно-временном представлении. Коррекция фазы аудиосигнала может выполняться посредством вычитания отклонения производной фазы по времени целевой фазы и фазы аудиосигнала из фазы аудиосигнала.

Следовательно, поскольку производная фазы по времени является частотой (

, где

является фазой), описанная фазовая коррекция выполняет частотное регулирование для каждой подполосы частот аудиосигнала. Другими словами, разность каждой подполосы частот аудиосигнала с целевой частотой может уменьшаться, чтобы получать лучшее качество для аудиосигнала.

Чтобы определять целевую фазу, модуль определения целевой фазы сконфигурирован с возможностью получения оценки основной частоты для текущего временного кадра и вычисления оценки частоты для каждой подполосы частот из множества подполос частот временного кадра с использованием оценки основной частоты для временного кадра. Оценка частоты может преобразовываться в производную фазы по времени с использованием общего числа подполос частот и частоты дискретизации аудиосигнала. В дополнительном варианте осуществления, аудиопроцессор содержит модуль определения целевых фазовых показателей для определения целевого фазового показателя для аудиосигнала во временном кадре, модуль вычисления фазовых ошибок для вычисления фазовой ошибки с использованием фазы аудиосигнала и временного кадра целевого фазового показателя, и фазовый корректор, сконфигурированный с возможностью коррекции фазы аудиосигнала и временного кадра с использованием фазовой ошибки.

Согласно дополнительным вариантам осуществления, аудиосигнал доступен в частотно-временном представлении, при этом аудиосигнал содержит множество подполос частот для временного кадра. Модуль определения целевых фазовых показателей определяет первый целевой фазовый показатель для первого подполосного сигнала и второй целевой фазовый показатель для второго подполосного сигнала. Кроме того, модуль вычисления фазовых ошибок формирует вектор фазовых ошибок, при этом первый элемент вектора относится к первому отклонению фазы первого подполосного сигнала и первому целевому фазовому показателю, и при этом второй элемент вектора относится к второму отклонению фазы второго подполосного сигнала и второму целевому фазовому показателю. Дополнительно, аудиопроцессор этого варианта осуществления содержит синтезатор аудиосигналов для синтезирования скорректированного аудиосигнала с использованием скорректированного первого подполосного сигнала и скорректированного второго подполосного сигнала. Эта фазовая коррекция формирует значения скорректированной фазы в среднем.

Дополнительно или альтернативно, множество подполос частот группируется в основную полосу частот и набор частотных наложений, при этом основная полоса частот содержит одну подполосу частот аудиосигнала, и набор частотных наложений содержит, по меньшей мере, одну подполосу частот основной полосы частот на частоте, превышающей частоту, по меньшей мере, одной подполосы частот в основной полосе частот.

Дополнительные варианты осуществления показывают модуль вычисления фазовых ошибок, сконфигурированный с возможностью вычисления среднего значения элементов вектора фазовых ошибок, относящегося к первому наложению второго числа частотных наложений, чтобы получать среднюю фазовую ошибку. Фазовый корректор сконфигурирован с возможностью коррекции фазы подполосного сигнала в первом и последующих частотных наложениях набора частотных наложений сигнала наложения с использованием средневзвешенной фазовой ошибки, при этом средняя фазовая ошибка разделяется согласно индексу частотного наложения, с тем чтобы получать модифицированный сигнал наложения. Эта фазовая коррекция предоставляет хорошее качество на частотах разделения, которые являются граничными частотами между двумя последующими частотными наложениями.

Согласно дополнительному варианту осуществления, два вышеописанных варианта осуществления могут комбинироваться, чтобы получать скорректированный аудиосигнал, содержащий значения с фазовой коррекцией, которые являются хорошими в среднем и на частотах разделения. Следовательно, модуль вычисления производных фазы аудиосигнала сконфигурирован с возможностью вычисления среднего значения производных фазы по частоте для основной полосы частот. Фазовый корректор вычисляет дополнительный модифицированный сигнал наложения с оптимизированным первым частотным наложением посредством суммирования среднего значения производных фазы по частоте, взвешенных посредством текущего индекса подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в основной полосе частот аудиосигнала. Кроме того, фазовый корректор может быть сконфигурирован с возможностью вычисления взвешенного среднего модифицированного сигнала наложения и дополнительного модифицированного сигнала наложения, с тем чтобы получать комбинированный модифицированный сигнал наложения и рекурсивного обновления, на основе частотных наложений, комбинированного модифицированного сигнала наложения посредством суммирования среднего значения производных фазы по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении комбинированного модифицированного сигнала наложения.

Чтобы определять целевую фазу, модуль определения целевых фазовых показателей может содержать модуль извлечения потоков данных, сконфигурированный с возможностью извлечения позиции пика и основной частоты позиций пиков в текущем временном кадре аудиосигнала из потока данных. Альтернативно, модуль определения целевых фазовых показателей может содержать анализатор аудиосигналов, сконфигурированный с возможностью анализа текущего временного кадра, чтобы вычислять позицию пика и основную частоту позиций пиков в текущем временном кадре. Кроме того, модуль определения целевых фазовых показателей содержит генератор целевого спектра для оценки дополнительных позиций пиков в текущем временном кадре с использованием позиции пика и основной частоты позиций пиков. Подробно, генератор целевого спектра может содержать детектор пиков для формирования последовательности импульсов времени, формирователь сигналов, чтобы регулировать частоту последовательности импульсов согласно основной частоте позиций пиков, модуль позиционирования импульсов, чтобы регулировать фазу последовательности импульсов согласно позиции, и анализатор спектра, чтобы формировать фазовый спектр отрегулированной последовательности импульсов, при этом фазовый спектр сигнала временной области является целевым фазовым показателем. Описанный вариант осуществления модуля определения целевых фазовых показателей является преимущественным для формирования целевого спектра для аудиосигнала, имеющего форму сигнала с пиками.

Варианты осуществления второго аудиопроцессора описывают вертикальную фазовую коррекцию. Вертикальная фазовая коррекция регулирует фазу аудиосигнала в одном временном кадре по всем подполосам частот. Регулирование фазы аудиосигнала, применяемое независимо для каждой подполосы частот, приводит в результате, после синтезирования подполос частот аудиосигнала, к форме сигнала для аудиосигнала, отличающейся от нескорректированного аудиосигнала. Следовательно, например, можно восстанавливать исходную форму размытого пика или переходной части (транзиента).

Согласно дополнительному варианту осуществления, показан модуль вычисления для определения данных фазовой коррекции для аудиосигнала с модулем определения варьирования для определения варьирования фазы аудиосигнала в режиме первого и второго варьирования, модулем сравнения варьирования для сравнения первого варьирования, определенного с использованием режима фазового варьирования, и второго варьирования, определенного с использованием режима второго варьирования, и модулем вычисления корректирующих данных для вычисления фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.

Дополнительный вариант осуществления показывает модуль определения варьирования для определения показателя среднеквадратического отклонения производной фазы по времени (PDT) для множества временных кадров аудиосигнала в качестве варьирования фазы в режиме первого варьирования или показателя среднеквадратического отклонения производной фазы по частоте (PDF) для множества подполос частот в качестве варьирования фазы в режиме второго варьирования. Модуль сравнения варьирования сравнивает показатель производной фазы по времени в качестве режима первого варьирования и показатель производной фазы по частоте в качестве режима второго варьирования для временных кадров аудиосигнала. Согласно дополнительному варианту осуществления, модуль определения варьирования сконфигурирован с возможностью определения варьирования фазы аудиосигнала в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей. Следовательно, модуль сравнения варьирования сравнивает три режима варьирования, и модуль вычисления корректирующих данных вычисляет фазовую коррекцию в соответствии с режимом первого варьирования, режимом второго варьирования или третьего варьирования на основе результата сравнения.

Правила принятия решения модуля вычисления корректирующих данных могут описываться следующим образом. Если обнаруживается переходная часть, фаза корректируется согласно фазовой коррекции для переходных частей, чтобы восстанавливать форму переходной части. В противном случае, если первое варьирование меньше или равно второму варьированию, применяется фазовая коррекция режима первого варьирования, либо если второе варьирование превышает первое варьирование, применяется фазовая коррекция в соответствии с режимом второго варьирования. Если обнаруживается отсутствие переходной части, и если как первое, так и второе варьирование превышают пороговое значение, не применяется ни один из режимов фазовой коррекции.

Модуль вычисления может быть сконфигурирован с возможностью анализа аудиосигнала, например, на стадии кодирования аудио, чтобы определять наилучший режим фазовой коррекции и вычислять релевантные параметры для определенного режима фазовой коррекции. На стадии декодирования, параметры могут использоваться для того, чтобы получать декодированный аудиосигнал, который имеет лучшее качество по сравнению с аудиосигналами, декодированными с использованием кодеков предшествующего уровня техники. Следует отметить, что модуль вычисления автономно обнаруживает правильный режим коррекции для каждого временного кадра аудиосигнала.

Варианты осуществления показывают декодер для декодирования аудиосигнала с генератором первого целевого спектра для формирования целевого спектра для первого временного кадра второго сигнала для аудиосигнала с использованием первых корректирующих данных и первым фазовым корректором для коррекции фазы подполосного сигнала в первом временном кадре аудиосигнала, определенной с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала и целевым спектром. Дополнительно, декодер содержит модуль вычисления подполосных аудиосигналов для вычисления подполосного аудиосигнала для первого временного кадра с использованием скорректированной фазы для временного кадра и вычисления подполосного аудиосигнала для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции.

Согласно дополнительным вариантам осуществления, декодер содержит генератор второго и третьего целевого спектра, эквивалентный генератору первого целевого спектра, и второй и третий фазовый корректор, эквивалентный первому фазовому корректору. Следовательно, первый фазовый корректор может выполнять горизонтальную фазовую коррекцию, второй фазовый корректор может выполнять вертикальную фазовую коррекцию, и третий фазовый корректор может выполнять фазовую коррекцию переходных частей. Согласно дополнительному варианту осуществления, декодер содержит базовый декодер, сконфигурированный с возможностью декодирования аудиосигнала во временном кадре с сокращенным числом подполос частот относительно аудиосигнала. Кроме того, декодер может содержать модуль наложения для наложения набора подполос частот базового декодированного аудиосигнала с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал с нормальным числом подполос частот. Кроме того, декодер может содержать процессор амплитуд для обработки значений амплитуды подполосного аудиосигнала во временном кадре и синтезатор аудиосигналов для синтезирования подполосных аудиосигналов или амплитуды обработанных подполосных аудиосигналов, с тем чтобы получать синтезированный декодированный аудиосигнал. Этот вариант осуществления может устанавливать декодер для расширения полосы пропускания, содержащего фазовую коррекцию декодированного аудиосигнала.

Соответственно, кодер для кодирования аудиосигнала, содержащий модуль определения фазы для определения фазы аудиосигнала, модуль вычисления для определения данных фазовой коррекции для аудиосигнала на основе определенной фазы аудиосигнала, базовый кодер, сконфигурированный с возможностью базового кодирования аудиосигнала, чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала, и модуль извлечения параметров, сконфигурированный с возможностью извлечения параметров аудиосигнала для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал, и формирователь аудиосигналов для формирования выходного сигнала, содержащего параметры, базовый кодированный аудиосигнал и данные фазовой коррекции, может формировать кодер для расширения полосы пропускания.

Все вышеописанные варианты осуществления могут рассматриваться в совокупности или в комбинации, например, в кодере и/или декодере для расширения полосы пропускания с фазовой коррекцией декодированного аудиосигнала. Альтернативно, также можно рассматривать все описанные варианты осуществления независимо безотносительно друг друга.

Ниже поясняются варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1a показывает амплитудный спектр сигнала скрипки в частотно-временном представлении;

Фиг. 1b показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 1a;

Фиг. 1c показывает амплитудный спектр сигнала тромбона в QMF-области в частотно-временном представлении;

Фиг. 1d показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 1c;

Фиг. 2 показывает частотно-временную диаграмму, содержащую частотно-временные мозаичные фрагменты (например, QMF-элементы выборки, элементы выборки гребенки квадратурных зеркальных фильтров), заданные посредством временного кадра и подполосы частот;

Фиг. 3a показывает примерную частотную диаграмму аудиосигнала, при этом амплитуда частоты проиллюстрирована для десяти различных подполос частот;

Фиг. 3b показывает примерное частотное представление аудиосигнала после приема, например, в ходе процесса декодирования на промежуточном этапе;

Фиг. 3c показывает примерное частотное представление восстановленного аудиосигнала

;

Фиг. 4a показывает амплитудный спектр сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 4b показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 4a;

Фиг. 4c показывает амплитудный спектр сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 4d показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 4c;

Фиг. 5 показывает представление во временной области одного QMF-элемента выборки с различными значениями фазы;

Фиг. 6 показывает представление во временной области и в частотной области сигнала, который имеет одну ненулевую полосу частот и фазу, изменяющуюся с фиксированным значением,

(верхнее) и

(нижнее);

Фиг. 7 показывает представление во временной области и в частотной области сигнала, который имеет одну ненулевую полосу частот, и фаза изменяется случайно;

Фиг. 8 показывает эффект, описанный относительно фиг. 6 в частотно-временном представлении четырех временных кадров и четырех подполос частот, причем только третья подполоса частот содержит частоту, отличающуюся от нуля;

Фиг. 9 показывает представление во временной области и в частотной области сигнала, который имеет один ненулевой временной кадр, и фаза изменяется с фиксированным значением,

(верхнее) и

(нижнее);

Фиг. 10 показывает представление во временной области и в частотной области сигнала, который имеет один ненулевой временной кадр, и фаза изменяется случайно;

Фиг. 11 показывает частотно-временную диаграмму, аналогичную частотно-временной диаграмме, показанной на фиг. 8, на которой только третий временной кадр содержит частоту, отличающуюся от нуля;

Фиг. 12a показывает производную фазы по времени сигнала скрипки в QMF-области в частотно-временном представлении;

Фиг. 12b показывает частоту производной фазы, соответствующую производной фазы по времени, показанной на фиг. 12a;

Фиг. 12c показывает производную фазы по времени сигнала тромбона в QMF-области в частотно-временном представлении;

Фиг. 12d показывает производную фазы по частоте соответствующей производной фазы по времени по фиг. 12c;

Фиг. 13a показывает производную фазы по времени сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 13b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 13a;

Фиг. 13c показывает производную фазы по времени сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 13d показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 13c;

Фиг. 14a схематично показывает четыре фазы, например, последующих временных кадров или подполос частот, в единичном кругу;

Фиг. 14b показывает фазы, проиллюстрированные на фиг. 14a, после SBR-обработки и, с помощью пунктирных линий, скорректированные фазы;

Фиг. 15 показывает принципиальную блок-схему аудиопроцессора 50;

Фиг. 16 показывает аудиопроцессор на принципиальной блок-схеме согласно дополнительному варианту осуществления;

Фиг. 17 показывает сглаженную ошибку в PDT сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 18a показывает ошибку в PDT сигнала скрипки в QMF-области для скорректированной SBR в частотно-временном представлении;

Фиг. 18b показывает производную фазы по времени, соответствующую ошибке, показанной на фиг. 18a;

Фиг. 19 показывает принципиальную блок-схему декодера;

Фиг. 20 показывает принципиальную блок-схему кодера;

Фиг. 21 показывает принципиальную блок-схему потока данных, который может представлять собой аудиосигнал;

Фиг. 22 показывает поток данных по фиг. 21 согласно дополнительному варианту осуществления;

Фиг. 23 показывает принципиальную блок-схему способа для обработки аудиосигнала;

Фиг. 24 показывает принципиальную блок-схему способа для декодирования аудиосигнала;

Фиг. 25 показывает принципиальную блок-схему способа для кодирования аудиосигнала;

Фиг. 26 показывает принципиальную блок-схему аудиопроцессора согласно дополнительному варианту осуществления;

Фиг. 27 показывает принципиальную блок-схему аудиопроцессора согласно предпочтительному варианту осуществления;

Фиг. 28a показывает принципиальную блок-схему фазового корректора в аудиопроцессоре, подробнее иллюстрирующую последовательность сигналов;

Фиг. 28b показывает этапы фазовой коррекции с другой точки зрения по сравнению с фиг. 26-28a;

Фиг. 29 показывает принципиальную блок-схему модуля определения целевых фазовых показателей в аудиопроцессоре, подробнее иллюстрирующую модуль определения целевых фазовых показателей;

Фиг. 30 показывает принципиальную блок-схему генератора целевого спектра в аудиопроцессоре, подробнее иллюстрирующую генератор целевого спектра;

Фиг. 31 показывает принципиальную блок-схему декодера;

Фиг. 32 показывает принципиальную блок-схему кодера;

Фиг. 33 показывает принципиальную блок-схему потока данных, который может представлять собой аудиосигнал;

Фиг. 34 показывает принципиальную блок-схему способа для обработки аудиосигнала;

Фиг. 35 показывает принципиальную блок-схему способа для декодирования аудиосигнала;

Фиг. 36 показывает принципиальную блок-схему способа для декодирования аудиосигнала;

Фиг. 37 показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;

Фиг. 38a показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием скорректированной SBR в частотно-временном представлении;

Фиг. 38b показывает производную фазы по частоте, соответствующую ошибке, показанной на фиг. 38a;

Фиг. 39 показывает принципиальную блок-схему модуля вычисления;

Фиг. 40 показывает принципиальную блок-схему модуля вычисления, подробнее иллюстрирующую последовательность сигналов в модуле определения варьирования;

Фиг. 41 показывает принципиальную блок-схему модуля вычисления согласно дополнительному варианту осуществления;

Фиг. 42 показывает принципиальную блок-схему способа для определения данных фазовой коррекции для аудиосигнала;

Фиг. 43a показывает среднеквадратическое отклонение производной фазы по времени сигнала скрипки в QMF-области в частотно-временном представлении;

Фиг. 43b показывает среднеквадратическое отклонение производной фазы по частоте, соответствующее среднеквадратическому отклонению производной фазы по времени, показанному относительно фиг. 43a;

Фиг. 43c показывает среднеквадратическое отклонение производной фазы по времени сигнала тромбона в QMF-области в частотно-временном представлении;

Фиг. 43d показывает среднеквадратическое отклонение производной фазы по частоте, соответствующее среднеквадратическому отклонению производной фазы по времени, показанному на фиг. 43c;

Фиг. 44a показывает амплитуду сигнала скрипки+аплодисментов в QMF-области в частотно-временном представлении;

Фиг. 44b показывает фазовый спектр, соответствующий амплитудному спектру, показанному на фиг. 44a;

Фиг. 45a показывает производную фазы по времени сигнала скрипки+аплодисментов в QMF-области в частотно-временном представлении;

Фиг. 45b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 45a;

Фиг. 46a показывает производную фазы по времени сигнала скрипки+аплодисментов в QMF-области с использованием скорректированной SBR в частотно-временном представлении;

Фиг. 46b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 46a;

Фиг. 47 показывает частоты QMF-полос частот в частотно-временном представлении;

Фиг. 48a показывает частоты QMF-полос частот для SBR с прямой перезаписью по сравнению с исходными частотами, показанными в частотно-временном представлении;

Фиг. 48b показывает частоты QMF-полосы частот с использованием скорректированной SBR по сравнению с исходными частотами в частотно-временном представлении;

Фиг. 49 показывает оцененные частоты гармоник по сравнению с частотами QMF-полос частот исходного сигнала в частотно-временном представлении;

Фиг. 50a показывает ошибку в производной фазы по времени сигнала скрипки в QMF-области с использованием скорректированной SBR со сжатыми корректирующими данными в частотно-временном представлении;

Фиг. 50b показывает производную фазы по времени, соответствующую ошибке производной фазы по времени, показанной на фиг. 50a;

Фиг. 51a показывает форму сигнала для сигнала тромбона во временной диаграмме;

Фиг. 51b показывает сигнал временной области, соответствующий сигналу тромбона на фиг. 51a, который содержит только оцененные пики, при этом позиции пиков получены с использованием передаваемых метаданных;

Фиг. 52a показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием скорректированной SBR со сжатыми корректирующими данными в частотно-временном представлении;

Фиг. 52b показывает производную фазы по частоте, соответствующую ошибке в фазовом спектре, показанной на фиг. 52a;

Фиг. 53 показывает принципиальную блок-схему декодера;

Фиг. 54 показывает принципиальную блок-схему согласно предпочтительному варианту осуществления;

Фиг. 55 показывает принципиальную блок-схему декодера согласно дополнительному варианту осуществления;

Фиг. 56 показывает принципиальную блок-схему кодера;

Фиг. 57 показывает блок-схему модуля вычисления, который может использоваться в кодере, показанном на фиг. 56;

Фиг. 58 показывает принципиальную блок-схему способа для декодирования аудиосигнала; и

Фиг. 59 показывает принципиальную блок-схему способа для кодирования аудиосигнала.

Далее подробнее описываются варианты осуществления изобретения. Элементы, показанные на соответствующих чертежах, имеющие идентичную или аналогичную функциональность, имеют ассоциированные идентичные ссылки с номерами.

Варианты осуществления настоящего изобретения описываются относительно конкретной обработки сигналов. Следовательно, фиг. 1-14 описывают обработку сигналов, применяемую к аудиосигналу. Даже если варианты осуществления описываются относительно этой конкретной обработки сигналов, настоящее изобретение не ограничено этой обработкой и также дополнительно может применяться ко многим другим схемам обработки. Кроме того, фиг. 15-25 показывают варианты осуществления аудиопроцессора, который может использоваться для горизонтальной фазовой коррекции аудиосигнала. Фиг. 26-38 показывают варианты осуществления аудиопроцессора, который может использоваться для вертикальной фазовой коррекции аудиосигнала. Кроме того, фиг. 39-52 показывают варианты осуществления модуля вычисления для определения данных фазовой коррекции для аудиосигнала. Модуль вычисления может анализировать аудиосигнал и определять то, какой из вышеуказанных аудиопроцессоров применяется, либо, если ни один из аудиопроцессоров не является подходящим для аудиосигнала, не применять ни один из аудиопроцессоров к аудиосигналу. Фиг. 53-59 показывают варианты осуществления декодера и кодера, которые могут содержать второй процессор и модуль вычисления.

1. Введение

Перцепционное кодирование аудио распространяется в качестве главного направления, обеспечивающего цифровые технологии для всех типов вариантов применения, которые предоставляют аудио и мультимедиа потребителям с использованием каналов передачи или хранения с ограниченной пропускной способностью. Современные перцепционные аудиокодеки должны доставлять удовлетворительное качество звука при все более низких скоростях передачи битов. В свою очередь, следует мириться с определенными артефактами кодирования, которые являются наиболее приемлемыми для большинства слушателей. Расширение полосы пропускания (BWE) аудиосигнала представляет собой технологию для того, чтобы искусственно расширять частотный диапазон аудиокодера посредством спектральной трансляции или транспозиции передаваемых частей сигнала полосы низких частот в полосу высоких частот за счет введения определенных артефактов.

Выявлено, что некоторые из этих артефактов связаны с изменением производной фазы в искусственно расширенной полосе высоких частот. Один из этих артефактов заключается в изменении производной фазы по частоте (см. также "вертикальную" фазовую когерентность) [8]. Сохранение упомянутой производной фазы является перцепционно важным для тональных сигналов, имеющих форму сигналов временной области в форме последовательности импульсов и достаточно низкую основную частоту. Артефакты, связанные с изменением вертикальной производной фазы, соответствуют локальной дисперсии энергии во времени и зачастую выявляются в аудиосигналах, которые обработаны посредством BWE-технологий. Другой артефакт заключается в изменении производной фазы по времени (см. также "горизонтальную" фазовую когерентность), которая является перцепционно важной для тональных сигналов с насыщенным обертоном любой основной частоты. Артефакты, связанные с изменением горизонтальной производной фазы, соответствуют локальному смещению частоты в основном тоне и зачастую выявляются в аудиосигналах, которые обработаны посредством BWE-технологий.

Настоящее изобретение представляет средство для повторного регулирования вертикальной или горизонтальной производной фазы таких сигналов, когда это свойство нарушено посредством применения так называемого расширения полосы пропускания (BWE) аудиосигнала. Дополнительное средство предоставляется, чтобы определять то, является или нет восстановление производной фазы перцепционно полезным, и то, является или нет регулирование вертикальной или горизонтальной производной фазы перцепционно предпочтительным.

Способы расширения полосы пропускания, такие как репликация полос спектра (SBR) [9], зачастую используются в кодеках с низкой скоростью передачи битов. Они обеспечивают возможность передачи только относительно узкой низкочастотной области наряду с параметрической информацией относительно полос верхних частот. Поскольку скорость передачи битов параметрической информации является небольшой, может получаться существенное повышение эффективности кодирования.

Типично, сигнал для полос верхних частот получается посредством простого его копирования из передаваемой низкочастотной области. Обработка обычно выполняется в области комплексно-модулированной гребенки квадратурных зеркальных фильтров (QMF)[10], которая также предполагается далее. Перезаписанный сигнал обрабатывается посредством умножения спектра его амплитуды на подходящие усиления на основе передаваемых параметров. Цель состоит в том, чтобы получать амплитудный спектр, аналогичный амплитудному спектру исходного сигнала. Наоборот, фазовый спектр перезаписанного сигнала типично вообще не обрабатывается, а вместо этого непосредственно используется перезаписанный фазовый спектр.

Далее анализируются перцепционные последствия использования непосредственно перезаписанного фазового спектра. На основе наблюдаемых эффектов, предлагаются два показателя для обнаружения перцепционно наиболее значимых эффектов. Кроме того, предлагаются способы в отношении того, как корректировать фазовый спектр на их основе. В завершение, предлагаются стратегии для минимизации количества значений передаваемых параметров для выполнения коррекции.

Настоящее изобретение относится к таким выявленным сведениям, что сохранение или восстановление производной фазы позволяет исправлять заметные артефакты, обусловленные посредством технологий расширения полосы пропускания (BWE) аудиосигнала. Например, типичные сигналы, когда сохранение производной фазы является важным, представляют собой тона с контентом с насыщенным гармоническим обертоном, такие как вокализованная речь, медные духовые инструменты или смычковые инструменты.

Настоящее изобретение дополнительно предоставляет средство определять то, является или нет (для данного кадра сигнала) восстановление производной фазы перцепционно полезным, и то, является или нет регулирование вертикальной или горизонтальной производной фазы перцепционно предпочтительным.

Изобретение направлено на устройство и способ для коррекции производной фазы в аудиокодеках с использованием BWE-технологий со следующими аспектами:

1. Квантификация "важности" коррекции производной фазы

2. Зависимая от сигнала приоритезация либо коррекции вертикальной ("частотной") производной фазы, либо коррекции горизонтальной ("временной") производной фазы

3. Зависимое от сигнала переключение направления коррекции ("частотная" или "временная")

4. Выделенный режим коррекции вертикальной производной фазы для переходных частей

5. Получение стабильных параметров для сглаженной коррекции

6. Компактный формат передачи вспомогательной информации параметров коррекции

2. Представление сигналов в QMF-области

Сигнал

временной области, где

является дискретным временем, может представляться в частотно-временной области, например, с использованием комплексно-модулированной гребенки квадратурных зеркальных фильтров (QMF). Результирующий сигнал представляет собой

, где

является индексом полосы частот, а

является индексом временного кадра. QMF 64 полос частот и частота

дискретизации в 48 кГц предполагаются для визуализаций и вариантов осуществления. Таким образом, полоса

пропускания каждой полосы частот составляет 375 Гц, и размер

временного перескока (17 на фиг. 2) составляет 1,33 мс. Тем не менее, обработка не ограничена таким преобразованием. Альтернативно, вместо этого может использоваться MDCT (модифицированное дискретное косинусное преобразование) или DFT (дискретное преобразование Фурье).

Результирующий сигнал представляет собой

, где

является индексом полосы частот, а

является индексом временного кадра.

является комплексным сигналом. Таким образом, он также может представляться с использованием компонентов амплитуды

и фазы

, где j является комплексным числом:

. (1)

Аудиосигналы представляются главным образом с использованием

и

(см. фиг. 1 для двух примеров).

Фиг. 1a показывает амплитудный спектр

сигнала скрипки, при этом фиг. 1b показывает соответствующий фазовый спектр

, оба из которых находятся в QMF-области. Кроме того, фиг. 1c показывает амплитудный спектр

сигнала тромбона, при этом фиг. 1d показывает соответствующий фазовый спектр снова в соответствующей QMF-области. Относительно амплитудных спектров на фиг. 1a и 1c, цветовой градиент указывает амплитуду от красного цвета=0 дБ до синего цвета=-80 дБ. Кроме того, для фазовых спектров на фиг. 1b и 1d, цветовой градиент указывает фазы от красного цвета=

до синего цвета=

.

3. Аудиоданные

Аудиоданные, используемые для того, чтобы демонстрировать эффект описанной аудиообработки, называются "тромбон" для аудиосигнала тромбона, "скрипка" для аудиосигнала скрипки и "скрипка+аплодисменты" для сигнала скрипки с аплодисментами, добавленными в середине.

4. Базовый режим работы SBR

Фиг. 2 показывает частотно-временную диаграмму 5, содержащую частотно-временные мозаичные фрагменты 10 (например, QMF-элементы выборки, элементы выборки гребенки квадратурных зеркальных фильтров), заданные посредством временного кадра 15 и подполосы 20 частот. Аудиосигнал может преобразовываться в такое частотно-временное представление с использованием преобразования на основе QMF (гребенки квадратурных зеркальных фильтров), MDCT (модифицированного дискретного косинусного преобразования) или DFT (дискретного преобразования Фурье). Разделение аудиосигнала на временные кадры может содержать перекрывающиеся части аудиосигнала. В нижней части по фиг. 1, показано одно перекрытие временных кадров 15, в котором максимум два временных кадра перекрываются одновременно. Кроме того, т.е. если требуется большая избыточность, аудиосигнал также может разделяться с использованием множественного перекрытия. В алгоритме множественного перекрытия, три или более временных кадров могут содержать идентичную часть аудиосигнала в определенный момент времени. Длительность перекрытия составляет размер

17 перескока.

При условии сигнала

, сигнал

с расширенной полосой пропускания (BWE) получается из входного сигнала

посредством перезаписи определенных частей передаваемой полосы низких частот. SBR-алгоритм начинается посредством выбора частотной области для передачи. В этом примере, выбираются полосы частот от 1 до 7:

. (2)

Количество полос частот для передачи зависит от требуемой скорости передачи битов. Чертежи и уравнения создаются с использованием 7 полос частот, и от 5 до 11 полос частот используются для соответствующих аудиоданных. Таким образом, частоты разделения между передаваемой частотной областью и полосами верхних частот составляют от 1875 до 4125 Гц, соответственно. Полосы частот выше этой области вообще не передаются, а вместо этого создаются параметрические метаданные для их описания.

кодируется и передается. Для простоты, предполагается, что кодирование не модифицирует сигнал каким-либо образом, даже если отмечается, что последующая обработка не ограничена предполагаемым случаем.

На приемной стороне, передаваемая частотная область непосредственно используется для соответствующих частот.

Для полос верхних частот, сигнал может создаваться тем или иным образом с использованием передаваемого сигнала. Один подход заключается в том, чтобы просто копировать передаваемый сигнал в верхние частоты. Здесь используется немного модифицированная версия. Во-первых, выбирается сигнал основной полосы частот. Он может представлять собой полный передаваемый сигнал, но в этом варианте осуществления опускается первая полоса частот. Причина этого заключается в том, что отмечается то, что фазовый спектр во многих случаях является нерегулярным для первой полосы частот. Таким образом, основная полоса частот, которая должна быть перезаписана, задается следующим образом:

. (3)

Другие полосы пропускания также могут использоваться для передаваемых сигналов и сигналов основной полосы частот. С использованием сигнала основной полосы частот, создаются необработанные сигналы для верхних частот:

, (4)

где

является комплексным QMF-сигналом для частотного наложения

. Необработанные сигналы частотного наложения манипулируются согласно передаваемым метаданным посредством их умножения на усиления

:

. (5)

Следует отметить, что усиления являются действительнозначными, и в силу этого, только амплитудный спектр затрагивается и за счет этого адаптируется к требуемому целевому значению. Известные подходы показывают то, как получаются усиления. Целевая фаза остается нескорректированной в упомянутых известных подходах.

Конечный сигнал, который должен воспроизводиться, получается посредством конкатенации передаваемых сигналов и сигналов наложения для прозрачного расширения полосы пропускания, чтобы получать BWE-сигнал требуемой полосы пропускания. В этом варианте осуществления, предполагается

.

. (6)

Фиг. 3 показывает описанные сигналы в графическом представлении. Фиг. 3a показывает примерную частотную диаграмму аудиосигнала, при этом амплитуда частоты проиллюстрирована для десяти различных подполос частот. Первые семь подполос частот отражают передаваемые полосы

25 частот. Основная полоса

30 частот извлекается из них посредством выбора второй-седьмой подполосы частот. Фиг. 3a показывает исходный аудиосигнал, т.е. аудиосигнал до передачи или кодирования. Фиг. 3b показывает примерное частотное представление аудиосигнала после приема, например, в ходе процесса декодирования на промежуточном этапе. Частотный спектр аудиосигнала содержит передаваемые полосы 25 частот и семь сигналов 30 основной полосы частот, скопированных в подполосы верхних частот частотного спектра, формирующего аудиосигнал 32, содержащий частоты, превышающие частоты в основной полосе частот. Полный сигнал основной полосы частот также упоминается как частотное наложение. Фиг. 3c показывает восстановленный аудиосигнал

35. По сравнению с фиг. 3b, наложения сигналов основной полосы частот умножаются отдельно на коэффициент усиления. Следовательно, частотный спектр аудиосигнала содержит основной частотный спектр 25 и определенное число наложений

40 со скорректированной амплитудой. Этот способ наложения упоминается в качестве наложения с прямой перезаписью. Наложение с прямой перезаписью примерно используется для того, чтобы описывать настоящее изобретение, даже если изобретение не ограничено таким алгоритмом наложения. Дополнительный алгоритм наложения, который может использоваться, например, представляет собой алгоритм гармонического наложения.

Предполагается, что параметрическое представление полос верхних частот является идеальным, т.е. амплитудный спектр восстановленного сигнала является идентичным амплитудному спектру исходного сигнала:

. (7)

Тем не менее, следует отметить, что фазовый спектр не корректируется каким-либо образом посредством алгоритма, так что он не является корректным, даже если алгоритм работает идеально. Следовательно, варианты осуществления показывают то, как дополнительно адаптировать и корректировать фазовый спектр

относительно целевого значения таким образом, что получается повышение перцепционного качества. В вариантах осуществления, коррекция может выполняться с использованием трех различных режимов обработки, "горизонтального", "вертикального" и "переходных частей". Далее отдельно поясняются эти режимы.

и

проиллюстрированы на фиг. 4 для сигналов скрипки и тромбона. Фиг. 4 показывает примерные спектры восстановленного аудиосигнала 35 с использованием репликации полосы пропускания спектра (SBR) с наложением с прямой перезаписью. Амплитудный спектр

сигнала скрипки показан на фиг. 4a, при этом фиг. 4b показывает соответствующий фазовый спектр

. Фиг. 4c и 4d показывают соответствующие спектры для сигнала тромбона. Все сигналы представляются в QMF-области. Как уже отмечено на фиг. 1, цветовой градиент указывает амплитуду от красного цвета=0 дБ до синего цвета=-80 дБ и фазу от красного цвета=

до синего цвета=

. Можно видеть, что их фазовые спектры отличаются от спектров исходных сигналов (см. фиг. 1). Вследствие SBR, скрипка воспринимается как содержащая негармоничность, а тромбон как содержащий шумы модуляции на частотах разделения. Тем не менее, фазовые диаграммы выглядят довольно случайными, и действительно трудно сказать, насколько они отличаются, и каковы перцепционные эффекты разностей. Кроме того, отправка корректирующих данных для этого вида случайных данных не является целесообразной в вариантах применения кодирования, которые требуют низкой скорости передачи битов. Таким образом, требуется понимание перцепционных эффектов фазового спектра и нахождение показателей для их описания. Эти темы поясняются в нижеприведенных разделах.

5. Смысловое значение фазового спектра в QMF-области

Зачастую считается, что индекс полосы частот задает частоту одного тонального компонента, амплитуда задает его уровень, а фаза задает его "синхронизацию". Тем не менее, полоса пропускания QMF-полосы частот является относительно большой, и данные избыточно дискретизируются. Таким образом, взаимодействие между частотно-временными мозаичными фрагментами (т.е. QMF-элементами выборки) фактически задает все эти свойства.

Представление во временной области одного QMF-элемента выборки с тремя различными значениями фазы, т.е.

и

проиллюстрировано на фиг. 5. Результат представляет собой синхровидную функцию с длиной в 13,3 мс. Точная форма функции задается посредством фазового параметра.

При рассмотрении случая, в котором только одна полоса частот является ненулевой для всех временных кадров, т.е.:

. (8)

Посредством изменения фазы между временными кадрами с фиксированным значением

, т.е.:

, (9)

создается синусоида. Результирующий сигнал (т.е. сигнал временной области после обратного QMF-преобразования) представляется на фиг. 6 со значениями

(верхняя часть) и

(нижняя часть). Можно видеть, что частота синусоиды затрагивается посредством изменения фазы. Частотная область показана в правой части, при этом временная область сигнала показана в левой части фиг. 6.

Соответственно, если фаза выбирается случайно, результат является узкополосным шумом (см. фиг. 7). Таким образом, можно сказать, что фаза QMF-элемента выборки управляет частотным спектром внутри соответствующей полосы частот.

Фиг. 8 показывает эффект, описанный относительно фиг. 6 в частотно-временном представлении четырех временных кадров и четырех подполос частот, причем только третья подполоса частот содержит частоту, отличающуюся от нуля. Это приводит к сигналу частотной области из фиг. 6, схематично представленному в правой части фиг. 8, и к представлению во временной области по фиг. 6, схематично представленному в нижней части фиг. 8.

При рассмотрении случая, в котором только один временной кадр является ненулевым для всех полос частот, т.е.:

. (10)

Посредством изменения фазы между полосами частот с фиксированным значением

, т.е.:

, (11)

создается переходная часть. Результирующий сигнал (т.е. сигнал временной области после обратного QMF-преобразования) представляется на фиг. 9 со значениями

(верхняя часть) и

(нижняя часть). Можно видеть, что временная позиция переходной части затрагивается посредством изменения фазы. Частотная область показана в правой части фиг. 9, при этом временная область сигнала показана в левой части фиг. 9.

Соответственно, если фаза выбирается случайно, результат является коротким всплеском шумов (см. фиг. 10). Таким образом, можно сказать, что фаза QMF-элемента выборки также управляет временными позициями гармоник внутри соответствующего временного кадра.

Фиг. 11 показывает частотно-временную диаграмму, аналогичную частотно-временной диаграмме, показанной на фиг. 8. На фиг. 11, только третий временной кадр содержит значения, отличающиеся от нуля, имеющие сдвиг по времени в

между подполосами частот. После преобразования в частотную область, получается сигнал частотной области из правой стороны по фиг. 9, схематично представленный в правой части фиг. 11. Схематический вид представления во временной области левой части по фиг. 9 показан в нижней части фиг. 11. Этот сигнал получается в результате посредством преобразования частотно-временной области в сигнал временной области.

6. Показатели для описания перцепционно релевантных свойств фазового спектра

Как пояснено в разделе 4, фазовый спектр сам по себе выглядит довольно запутанным, и затруднительно видеть непосредственно то, каково его влияние на восприятие. Раздел 5 представляет два эффекта, которые могут вызываться посредством манипуляции фазовым спектром в QMF-области: (a) постоянное изменение фазы по времени формирует синусоиду, и величина изменения фазы управляет частотой синусоиды, и (b) постоянное изменение фазы по частоте формирует переходную часть, и величина изменения фазы управляет временной позицией переходной части.

Частота и временная позиция частичного тона являются очевидно значимыми для человеческого восприятия, так что обнаружение этих свойств является потенциально полезным. Они могут оцениваться посредством вычисления производной фазы по времени (PDT):

, (12)

и посредством вычисления производной фазы по частоте (PDF):

. (13)

связана с частотой, а

- с временной позицией частичного тона. Вследствие свойств QMF-анализа (то, насколько фазы модуляторов смежных временных кадров совпадают в позиции переходной части),

суммируется с четными временными кадрами

на чертежах в целях визуализации, чтобы формировать плавные кривые.

Затем проверяется то, как эти показатели выглядят для наших примерных сигналов. Фиг. 12 показывает производные для сигналов скрипки и тромбона. Более конкретно, фиг. 12a показывает производную фазы

по времени исходного, т.е. необработанного аудиосигнала скрипки в QMF-области. Фиг. 12b показывает соответствующую производную фазы

по частоте. Фиг. 12c и 12d показывает производную фазы по времени и производную фазы по частоте для сигнала тромбона, соответственно. Цветовой градиент указывает значения фазы от красного цвета=

до синего цвета=

. Для скрипки, амплитудный спектр по существу является шумом приблизительно до 0,13 секунд (см. фиг. 1), и следовательно, производные также являются зашумленными. Начиная приблизительно с 0,13 секунды, обнаруживается, что

имеет относительно стабильные значения во времени. Это означает то, что сигнал содержит сильные, относительно стабильные синусоиды. Частоты этих синусоид определяются посредством значений

. Наоборот, обнаруживается, что график

является относительно зашумленным, так что релевантные данные не выявляются для скрипки с его использованием.

Для тромбона,

является относительно зашумленным. Наоборот, обнаруживается, что

имеет приблизительно идентичное значение на всех частотах. На практике, это означает то, что все гармонические компоненты совмещаются по времени, формируя переходный сигнал. Временные местоположения переходных частей определяются посредством значений

.

Идентичные производные также могут вычисляться для SBR-обработанных сигналов

(см. фиг. 13). Фиг. 13a-13d непосредственно связаны с фиг. 12a-12d, извлекаемыми посредством использования SBR-алгоритма с прямой перезаписью, описанного ранее. Поскольку фазовый спектр просто копируется из основной полосы частот в верхние наложения, PDT частотных наложений являются идентичными PDT основной полосы частот. Таким образом, для скрипки, PDT является относительно сглаженной во времени, формируя стабильные синусоиды, как и в случае исходного сигнала. Тем не менее, значения

отличаются от значений для исходного сигнала

, что вызывает то, что сформированные синусоиды имеют другие частоты относительно исходного сигнала. Перцепционный эффект означенного пояснен в разделе 7.

Соответственно, PDF частотных наложений в иных отношениях является идентичной PDF основной полосы частот, но на частотах разделения PDF, на практике, является случайной. На разделении, PDF фактически вычисляется между последним и первым значением фазы частотного наложения, т.е.:

(14)

Эти значения зависят от фактического PDF и частоты разделения, и они не совпадают со значениями исходного сигнала.

Для тромбона, PDF-значения перезаписанного сигнала являются корректными, за исключением частот разделения. Таким образом, временные местоположения большинства гармоник находятся в корректных местах, но гармоники на частотах разделения находятся практически в произвольных местоположениях. Перцепционный эффект означенного пояснен в разделе 7.

7. Человеческое восприятие фазовых ошибок

Звуки могут примерно разделяться на две категории: гармонические и шумоподобные сигналы. Шумоподобные сигналы имеют, уже по определению, зашумленные фазовые свойства. Таким образом, фазовые ошибки, вызываемые посредством SBR, предположительно не являются перцепционно значимыми для них. Вместо этого, они сконцентрированы на гармонических сигналах. Большинство музыкальных инструментов, а также речь формируют гармоническую структуру для сигнала, т.е. тон содержит сильные синусоидальные компоненты, разнесенные по частоте посредством основной частоты.

Человеческий слух зачастую предположительно имеет такой характер изменения, как если он содержит банк перекрывающихся полосовых фильтров, называемых в качестве слуховых фильтров. Таким образом, слух предположительно может трактовать комплексные звуки таким образом, что частичные звуки в слуховом фильтре анализируются в качестве одного объекта. Ширина этих фильтров может быть аппроксимирована таким образом, что она придерживается эквивалентной прямоугольной полосы пропускания (ERB) [11], которая может определяться согласно следующему:

, (15)

где

является центральной частотой полосы частот (в kHz). Как пояснено в разделе 4, частота разделения между основной полосой частот и SBR-наложениями составляет приблизительно 3 кГц. На этих частотах, ERB составляет приблизительно 350 Гц. Полоса пропускания QMF-полосы частот фактически располагается относительно близко к ней, 375 Гц. Следовательно, полоса пропускания QMF-полос частот предположительно может соответствовать ERB на интересующих частотах.

Два свойства звука, которые могут разладиться вследствие ошибочного фазового спектра, наблюдаются в разделе 6: частота и синхронизация частичного компонента. Если сконцентрироваться на частоте, вопрос заключается в том, может человеческий слух воспринимать частоты отдельных гармоник? Если он может, то смещение частоты, вызываемое посредством SBR, должно корректироваться, а если нет, то коррекция не требуется.

Принцип разрешаемых и неразрешаемых гармоник [12] может использоваться для того, чтобы прояснять эту тему. Если имеется только одна гармоника в ERB, гармоника называется "разрешаемой". Типично предполагается, что человеческий слух обрабатывает разрешаемые гармоники отдельно и в силу этого является чувствительным к их частоте. На практике, изменение частоты разрешаемых гармоник воспринимается как вызывающее негармоничность.

Соответственно, если имеется несколько гармоник в ERB, гармоники называются "неразрешаемыми". Человеческий слух предположительно не обрабатывает эти гармоники отдельно, а вместо этого, их объединенный эффект наблюдается посредством слуховой системы. Результат представляет собой периодический сигнал, и длина периода определяется посредством разнесения гармоник. Восприятие основного тона связано с длиной периода, так что человеческий слух предположительно должен быть чувствительным к ней. Тем не менее, если все гармоники в частотном наложении в SBR сдвигаются на одинаковую величину, разнесение между гармониками и в силу этого воспринимаемый основной тон остается идентичным. Следовательно, в случае неразрешаемых гармоник, человеческий слух не воспринимает смещения частоты в качестве негармоничности.

Далее рассматриваются связанные с синхронизацией ошибки, вызываемые посредством SBR. Под синхронизацией подразумевается временная позиция или фаза гармонического компонента. Ее не следует путать с фазой QMF-элемента выборки. Восприятие связанных с синхронизацией ошибок подробно изучено в [13]. Следует отметить, что для большинства сигналов, человеческий слух не является чувствительным к синхронизации или фазе гармонических компонентов. Тем не менее, предусмотрены определенные сигналы, для которых человеческий слух является очень чувствительным к синхронизации частичных тонов. Сигналы включают в себя, например, звуки тромбона и трубы и речь. Для этих сигналов, определенный фазовый угол возникает в один момент времени со всеми гармониками. Частота возбуждения нейронов различных полос слуховых частот смоделирована в [13]. Выяснено, что для этих фазочувствительных сигналов, сформированная частота возбуждения нейронов является пиковой во всех полосах слуховых частот, и что пики совмещаются по времени. Изменение фазы даже одной гармоники может изменять пиковость частоты возбуждения нейронов с помощью этих сигналов. Согласно результатам формального теста на основе прослушивания, человеческий слух является чувствительным к этому [13]. Сформированные эффекты представляют собой восприятие добавленного синусоидального компонента или узкополосного шума на частотах, на которых модифицирована фаза.

Помимо этого, выяснено, что чувствительность к связанным с синхронизацией эффектам зависит от основной частоты гармонического тона [13]. Чем ниже основная частота, тем большими являются воспринимаемые эффекты. Если основная частота выше приблизительно 800 Гц, слуховая система вообще не является чувствительной к связанным с синхронизацией эффектам.

Таким образом, если основная частота является низкой, и если фаза гармоник совмещается по частоте (что означает то, что временные позиции гармоник совмещаются), изменения синхронизации, или другими словами, фазы гармоник может восприниматься посредством человеческого слуха. Если основная частота является высокой, и/или фаза гармоник не совмещается по частоте, человеческий слух не является чувствительным к изменениям синхронизации гармоник.

8. Способы коррекции

В разделе 7 отмечено, что люди являются чувствительными к ошибкам в частотах разрешаемых гармоник. Помимо этого, люди являются чувствительными к ошибкам во временных позициях гармоник, если основная частота является низкой, и если гармоники совмещаются по частоте. SBR может вызывать обе эти ошибки, как пояснено в разделе 6, так что воспринимаемое качество может повышаться посредством их коррекции. Способы для этого предлагаются в этом разделе.

Фиг. 14 схематично иллюстрирует базовую идею в отношении способов коррекции. Фиг. 14a схематично показывает четыре фазы 45a-d, например, последующих временных кадров или подполос частот, в единичном кругу. Фазы 45a-d разнесены одинаково на 90°. Фиг. 14b показывает фазы после SBR-обработки и, с помощью пунктирных линий, скорректированные фазы. Фаза 45a перед обработкой может сдвигаться на фазовый угол 45a'. То же применимо к фазам 45b-45d. Показано, что разность между фазами после обработки, т.е. производная фазы, может нарушаться после SBR-обработки. Например, разность между фазами 45a' и 45b' составляет 110° после SBR-обработки, которая составляла 90° перед обработкой. Способы коррекции должны изменять значения 45b' фазы на новое значение 45b'' фазы, чтобы извлекать старую производную фазы в 90°. Идентичная коррекция применяется к фазам 45d' и 45d''.

8.1. Коррекция ошибок по частоте: коррекция горизонтальной производной фазы

Как пояснено в разделе 7, люди могут воспринимать ошибку по частоте гармоники главным образом, когда существует только одна гармоника в одной ERB. Кроме того, полоса пропускания QMF-полосы частот может использоваться для того, чтобы оценивать ERB на первом разделении. Следовательно, частота должна корректироваться только тогда, когда существует одна гармоника в одной полосе частот. Это является очень удобным, поскольку раздел 5 показывает то, если существует одна гармоника в расчете на полосу частот, сформированные PDT-значения являются стабильными или медленно изменяются во времени и потенциально могут корректироваться с использованием низкой скорости передачи битов.

Фиг. 15 показывает аудиопроцессор 50 для обработки аудиосигнала 55. Аудиопроцессор 50 содержит модуль 60 вычисления фазовых показателей аудиосигнала, модуль 65 определения целевых фазовых показателей и фазовый корректор 70. Модуль 60 вычисления фазовых показателей аудиосигнала сконфигурирован с возможностью вычисления фазового показателя 80 аудиосигнала 55 для временного кадра 75. Модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью определения целевого фазового показателя 85 для упомянутого временного кадра 75. Кроме того, фазовый корректор сконфигурирован с возможностью коррекции фаз 45 аудиосигнала 55 для временного кадра 75 с использованием вычисленного фазового показателя 80 и целевого фазового показателя 85, чтобы получать обработанный аудиосигнал 90. Необязательно, аудиосигнал 55 содержит множество подполосных сигналов 95 для временного кадра 75. Дополнительные варианты осуществления аудиопроцессора 50 описываются относительно фиг. 16. Согласно варианту осуществления, модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя 85a и второго целевого фазового показателя 85b для второго подполосного сигнала 95b. Соответственно, модуль 60 вычисления фазовых показателей аудиосигнала сконфигурирован с возможностью определения первого фазового показателя 80a для первого подполосного сигнала 95a и второго фазового показателя 80b для второго подполосного сигнала 95b. Фазовый корректор сконфигурирован с возможностью коррекции фазы 45a первого подполосного сигнала 95a с использованием первого фазового показателя 80a аудиосигнала 55 и первого целевого фазового показателя 85a и корректировать вторую фазу 45b второго подполосного сигнала 95b с использованием второго фазового показателя 80b аудиосигнала 55 и второго целевого фазового показателя 85b. Кроме того, аудиопроцессор 50 содержит синтезатор 100 аудиосигналов для синтезирования обработанного аудиосигнала 90 с использованием обработанного первого подполосного сигнала 95a и обработанного второго подполосного сигнала 95b. Согласно дополнительным вариантам осуществления, фазовый показатель 80 является производной фазы по времени. Следовательно, модуль 60 вычисления фазовых показателей аудиосигнала может вычислять, для каждой подполосы 95 частот из множества подполос частот, производную фазы значения 45 фазы текущего временного кадра 75b и значения фазы будущего временного кадра 75c. Соответственно, фазовый корректор 70 может вычислять, для каждой подполосы 95 частот из множества подполос частот текущего временного кадра 75b, отклонение между целевой производной фазы 85 и производной фазы 80 по времени, при этом коррекция, выполняемая посредством фазового корректора 70, выполняется с использованием отклонения.

Варианты осуществления показывают фазовый корректор 70, сконфигурированный с возможностью коррекции подполосных сигналов 95 различных подполос частот аудиосигнала 55 во временном кадре 75, так что частоты скорректированных подполосных сигналов 95 имеют значения частоты, гармонически выделяемые основной частоте аудиосигнала 55. Основная частота представляет собой наименьшую частоту, возникающую в аудиосигнале 55, или другими словами, первые гармоники аудиосигнала 55.

Кроме того, фазовый корректор 70 сконфигурирован с возможностью сглаживания отклонения 105 для каждой подполосы 95 частот из множества подполос частот по предыдущему временному кадру, текущему временному кадру и будущему временному кадру 75a-75c и сконфигурирован с возможностью уменьшения быстрых изменений отклонения 105 в подполосе 95 частот. Согласно дополнительным вариантам осуществления, сглаживание является взвешенным средним, при этом фазовый корректор 70 сконфигурирован с возможностью вычисления взвешенного среднего по предыдущему, текущему и будущему временным кадрам 75a-75c, взвешенным посредством амплитуды аудиосигнала 55 в предыдущем, текущем и будущем временном кадре 75a-75c.

Варианты осуществления показывают вышеописанные векторные этапы обработки. Следовательно, фазовый корректор 70 сконфигурирован с возможностью формирования вектора отклонений 105, при этом первый элемент вектора относится к первому отклонению 105a для первой подполосы 95a частот из множества подполос частот, и второй элемент вектора относится к второму отклонению 105b для второй подполосы 95b частот из множества подполос частот от предыдущего временного кадра 75a до текущего временного кадра 75b. Кроме того, фазовый корректор 70 может применять вектор отклонений 105 к фазам 45 аудиосигнала 55, при этом первый элемент вектора применяется к фазе 45a аудиосигнала 55 в первой подполосе 95a частот из множества подполос частот аудиосигнала 55, и второй элемент вектора применяется к фазе 45b аудиосигнала 55 во второй подполосе 95b частот из множества подполос частот аудиосигнала 55.

С другой точки зрения, можно указать то, что полная обработка в аудиопроцессоре 50 является векторной, при этом каждый вектор представляет временной кадр 75, при этом каждая подполоса 95 частот из множества подполос частот содержит элемент вектора. Дополнительные варианты осуществления акцентируют внимание на модуле определения целевых фазовых показателей, который сконфигурирован с возможностью получения оценки 85b основной частоты для текущего временного кадра 75b, при этом модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью вычисления оценки 85 частоты для каждой подполосы частот из множества подполос частот для временного кадра 75 с использованием оценки 85 основной частоты для временного кадра 75. Кроме того, модуль 65 определения целевых фазовых показателей может преобразовывать оценки 85 частоты для каждой подполосы 95 частот из множества подполос частот в производную фазы по времени с использованием общего числа подполос 95 частот и частоты дискретизации аудиосигнала 55. Для разъяснения следует отметить, что вывод 85 модуля 65 определения целевых фазовых показателей может быть либо оценкой частоты, либо производной фазы по времени, в зависимости от варианта осуществления. Следовательно, в одном варианте осуществления, оценка частоты уже содержит правильный формат для последующей обработки в фазовом корректоре 70, при этом в другом варианте осуществления оценка, частоты должна преобразовываться в подходящий формат, который может быть производной фазы по времени.

Соответственно, модуль 65 определения целевых фазовых показателей также может рассматриваться в качестве векторного. Следовательно, модуль 65 определения целевых фазовых показателей может формировать вектор оценок 85 частоты для каждой подполосы 95 частот из множества подполос частот, при этом первый элемент вектора относится к оценке 85a частоты для первой подполосы 95a частот, и второй элемент вектора относится к оценке 85b частоты для второй подполосы 95b частот. Дополнительно, модуль 65 определения целевых фазовых показателей может вычислять оценку 85 частоты с использованием кратных основной частоты, при этом оценка 85 частоты текущей подполосы 95 частот является кратным основной частоты, которое является ближайшим к центру подполосы 95 частот, или при этом оценка 85 частоты текущей подполосы частот является граничной частотой текущей подполосы 95 частот, если ни одно из кратных основной частоты не находится в текущей подполосе 95 частот.

Другими словами, предлагаемый алгоритм для коррекции ошибок в частотах гармоник с использованием аудиопроцессора 50 работает следующим образом. Во-первых, вычисляется PDT и SBR-обработанный сигнал

:

. После этого вычисляется разность между ним и целевым PDT для горизонтальной коррекции:

. (16a)

В этот момент, целевая PDT предположительно может быть равной PDT ввода входного сигнала:

. (16b)

Ниже представлено то, как целевая PDT может получаться с низкой скоростью передачи битов.

Это значение (т.е. значение 105 ошибки) сглаживается во времени с использованием взвешивающей функции

Ханна. Подходящая длина составляет, например, 41 выборку в QMF-области (соответствующую интервалу в 55 мс). Сглаживание взвешивается посредством амплитуды соответствующих частотно-временных мозаичных фрагментов:

, (17)

где circmean

обозначает вычисление кругового среднего значения для угловых значений

, взвешенных посредством значений

. Сглаженная ошибка в PDT

проиллюстрирована на фиг. 17 для сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью. Цветовой градиент указывает значения фазы от красного цвета=

до синего цвета=

.

Затем, матрица модулятора создается для модификации фазового спектра, чтобы получать требуемую PDT:

. (18)

Фазовый спектр обрабатывается с использованием этой матрицы:

. (19)

Фиг. 18a показывает ошибку в производной фазы

по времени (PDT) сигнала скрипки в QMF-области для скорректированной SBR. Фиг. 18b показывает соответствующую производную фазы

по времени, при этом ошибка в PDT, показанной на фиг. 18a, извлечена посредством сравнения результатов, представленных на фиг. 12a, с результатами, представленными на фиг. 18b. С другой стороны, цветовой градиент указывает значения фазы от красного цвета=

до синего цвета=

. PDT вычисляется для скорректированного фазового спектра

(см. фиг. 18b). Можно видеть, что PDT скорректированного фазового спектра сильно напоминает PDT исходного сигнала (см. фиг. 12), и ошибка является небольшой для частотно-временных мозаичных фрагментов, содержащих значительную энергию (см. фиг. 18a). Можно отметить, что негармоничность нескорректированных SBR-данных большей частью устранена. Кроме того, алгоритм, по-видимому, не вызывает значительные артефакты.

С использованием

в качестве целевой PDT, вероятно передавать значения

PDT-ошибки для каждого частотно-временного мозаичного фрагмента. Дополнительный подход, вычисляющий целевую PDT таким образом, что полоса пропускания для передачи уменьшается, показан в разделе 9.

В дополнительных вариантах осуществления, аудиопроцессор 50 может быть частью декодера 110. Следовательно, декодер 110 для декодирования аудиосигнала 55 может содержать аудиопроцессор 50, базовый декодер 115 и модуль 120 наложения. Базовый декодер 115 сконфигурирован с возможностью базового декодирования аудиосигнала 25 во временном кадре 75 с сокращенным числом подполос частот относительно аудиосигнала 55. Модуль наложения накладывает набор подполос 95 частот базового декодированного аудиосигнала 25 с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение 30a, на дополнительные подполосы частот во временном кадре 75, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал 55 с нормальным числом подполос частот. Дополнительно, аудиопроцессор 50 сконфигурирован с возможностью коррекции фаз 45 в подполосах частот первого наложения 30a согласно целевой функции 85. Аудиопроцессор 50 и аудиосигнал 55 описаны относительно фиг. 15 и 16, на которых поясняются ссылки с номерами, не проиллюстрированные на фиг. 19. Аудиопроцессор согласно вариантам осуществления выполняет фазовую коррекцию. В зависимости от вариантов осуществления, аудиопроцессор дополнительно может содержать коррекцию амплитуды аудиосигнала посредством модуля 125 применения параметров расширения полосы пропускания, применяющего BWE- или SBR-параметры к наложениям. Кроме того, аудиопроцессор может содержать синтезатор 100, например, гребенку синтезирующих фильтров, для комбинирования, т.е. синтезирования подполос частот аудиосигнала, чтобы получать нормальный аудиофайл.

Согласно дополнительным вариантам осуществления, модуль 120 наложения сконфигурирован с возможностью наложения набора подполос 95 частот аудиосигнала 25, при этом набор подполос частот формирует второе наложение, на дополнительные подполосы частот временного кадра, смежные с первым наложением, и при этом аудиопроцессор 50 сконфигурирован с возможностью коррекции фазы 45 в подполосах частот второго наложения. Альтернативно, модуль 120 наложения сконфигурирован с возможностью наложения скорректированного первого наложения на дополнительные подполосы частот временного кадра, смежные с первым наложением.

Другими словами, в первом варианте, модуль наложения компонует аудиосигнал с нормальным числом подполос частот из передаваемой части аудиосигнала, и после этого фазы каждого наложения аудиосигнала корректируются. Второй вариант сначала корректирует фазы первого наложения относительно передаваемой части аудиосигнала и после этого компонует аудиосигнал с нормальным числом подполос частот с уже скорректированным первым наложением.

Дополнительные варианты осуществления показывают декодер 110, содержащий модуль 130 извлечения потоков данных, сконфигурированный с возможностью извлечения основной частоты 114 текущего временного кадра 75 аудиосигнала 55 из потока 135 данных, при этом поток данных дополнительно содержит кодированный аудиосигнал 145 с сокращенным числом подполос частот. Альтернативно, декодер может содержать анализатор 150 основной частоты, сконфигурированный с возможностью анализа базового декодированного аудиосигнала 25, чтобы вычислять основную частоту 140. Другими словами, варианты для извлечения основной частоты 140 представляют собой, например, анализ аудиосигнала в декодере или в кодере, при этом во втором случае основная частота может быть более точной за счет более высокой скорости передачи данных, поскольку значение должно передаваться из кодера в декодер.

Фиг. 20 показывает кодер 155 для кодирования аудиосигнала 55. Кодер содержит базовый кодер 160 для базового кодирования аудиосигнала 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала, и кодер содержит анализатор 175 основной частоты для анализа аудиосигнала 55 или фильтрованной по нижним частотам версии аудиосигнала 55 для получения оценки основной частоты аудиосигнала. Кроме того, кодер содержит модуль 165 извлечения параметров для извлечения параметров подполос частот аудиосигнала 55, не включенного в базовый кодированный аудиосигнал 145, и кодер содержит формирователь 170 выходных сигналов для формирования выходного сигнала 135, содержащего базовый кодированный аудиосигнал 145, параметры и оценку основной частоты. В этом варианте осуществления, кодер 155 может содержать фильтр нижних частот перед базовым декодером 160 и фильтр 185 верхних частот перед модулем 165 извлечения параметров. Согласно дополнительным вариантам осуществления, формирователь 170 выходных сигналов сконфигурирован с возможностью формирования выходного сигнала 135 в последовательность кадров, при этом каждый кадр содержит базовый кодированный сигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку 140 основной частоты, где n≥2. В вариантах осуществления, базовый кодер 160, например, может представлять собой кодер по стандарту AAC (усовершенствованного кодирования аудио).

В альтернативном варианте осуществления, кодер на основе интеллектуального заполнения интервалов отсутствия сигнала может использоваться для кодирования аудиосигнала 55. Следовательно, базовый кодер кодирует аудиосигнал полной полосы пропускания, в котором, по меньшей мере, одна подполоса частот аудиосигнала исключается. Следовательно, модуль 165 извлечения параметров извлекает параметры для восстановления подполос частот, исключенных из процесса кодирования базового кодера 160.

Фиг. 21 показывает схематичную иллюстрацию выходного сигнала 135. Выходной сигнал представляет собой аудиосигнал, содержащий базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно исходного аудиосигнала 55, параметр 190, представляющий подполосы частот аудиосигнала, не включенные в базовый кодированный аудиосигнал 145, и оценку 140 основной частоты аудиосигнала 135 или исходного аудиосигнала 55.

Фиг. 22 показывает вариант осуществления аудиосигнала 135, при этом аудиосигнал формируется в последовательность кадров 195, при этом каждый кадр 195 содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр 195 содержит оценку 140 основной частоты, где n≥2. Это может описывать передачу равномерно разнесенных оценок основной частоты, например, для каждого 20-го кадра, или при этом оценка основной частоты передается нерегулярно, например, по требованию или специально.

Фиг. 23 показывает способ 2300 для обработки аудиосигнала с этапом 2305 "вычисление фазового показателя аудиосигнала для временного кадра с помощью модуля вычисления производных фазы аудиосигнала", этапом 2310 "определение целевого фазового показателя для упомянутого временного кадра с помощью модуля определения целевой производной фазы" и этапом 2315 "коррекция фаз аудиосигнала для временного кадра с помощью фазового корректора с использованием вычисленного фазового показателя и целевого фазового показателя, с тем чтобы получать обработанный аудиосигнал".

Фиг. 24 показывает способ 2400 для декодирования аудиосигнала с этапом 2405 "декодирование аудиосигнала во временном кадре с сокращенным числом подполос частот относительно аудиосигнала", этапом 2410 "наложение набора подполос частот декодированного аудиосигнала с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал с нормальным числом подполос частот" и этапом 2415 "коррекция фаз в подполосах частот первого наложения согласно целевой функции с помощью аудиопроцессора".

Фиг. 25 показывает способ 2500 для кодирования аудиосигнала с этапом 2505 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этапом 2510 "анализ аудиосигнала или фильтрованной по нижним частотам версии аудиосигнала с помощью анализатора основной частоты для получения оценки основной частоты для аудиосигнала", этапом 2515 "извлечение параметров подполос частот аудиосигнала, не включенного в базовый кодированный аудиосигнал, с помощью модуля извлечения параметров" и этапом 2520 "формирование выходного сигнала, содержащего базовый кодированный аудиосигнал, параметры и оценку основной частоты, с помощью формирователя выходных сигналов".

Описанные способы 2300, 2400 и 2500 могут реализовываться в программном коде компьютерной программы для осуществления способов, когда компьютерная программа работает на компьютере.

8.2. Коррекция временных ошибок: коррекция вертикальной производной фазы

Как пояснено выше, люди могут воспринимать ошибку во временной позиции гармоники, если гармоники синхронизируются по частоте, и если основная частота является низкой. В разделе 5 показано, что гармоники синхронизируются, если производная фазы по частоте является постоянной в QMF-области. Следовательно, преимущественно иметь, по меньшей мере, одну гармонику в каждой полосе частот. Иначе "пустые" полосы частот должны иметь случайные фазы и возмущать этот показатель. К счастью, люди являются чувствительными к временному местоположению гармоник только тогда, когда основная частота является низкой (см. раздел 7). Таким образом, производная фазы по частоте может использоваться в качестве показателя для определения перцепционно значительных эффектов вследствие временных перемещений гармоник.

Фиг. 26 показывает принципиальную блок-схему аудиопроцессора 50' для обработки аудиосигнала 55, при этом аудиопроцессор 50' содержит модуль 65' определения целевых фазовых показателей, модуль 200 вычисления фазовых ошибок и фазовый корректор 70'. Модуль 65' определения целевых фазовых показателей определяет целевой фазовый показатель 85' для аудиосигнала 55 во временном кадре 75. Модуль 200 вычисления фазовых ошибок вычисляет фазовую ошибку 105' с использованием фазы аудиосигнала 55 во временном кадре 75 и целевого фазового показателя 85'. Фазовый корректор 70' корректирует фазу аудиосигнала 55 во временном кадре с использованием фазовой ошибки 105', формируя обработанный аудиосигнал 90'.

Фиг. 27 показывает принципиальную блок-схему аудиопроцессора 50' согласно дополнительному варианту осуществления. Следовательно, аудиосигнал 55 содержит множество подполос 95 частот для временного кадра 75. Соответственно, модуль 65' определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя 85a' для первого подполосного сигнала 95a и второго целевого фазового показателя 85b' для второго подполосного сигнала 95b. Модуль 200 вычисления фазовых ошибок формирует вектор фазовых ошибок 105', при этом первый элемент вектора относится к первому отклонению 105a' фазы первого подполосного сигнала 95 и первому целевому фазовому показателю 85a', и при этом второй элемент вектора относится к второму отклонению 105b' фазы второго подполосного сигнала 95b и второму целевому фазовому показателю 85b'. Кроме того, аудиопроцессор 50' содержит синтезатор 100 аудиосигналов для синтезирования скорректированного аудиосигнала 90' с использованием скорректированного первого подполосного сигнала 90a' и скорректированного второго подполосного сигнала 90b'.

Относительно дополнительных вариантов осуществления, множество подполос 95 частот группируется в основную полосу 30 частот и набор частотных наложений 40, основная полоса 30 частот, содержащая одну подполосу 95 частот аудиосигнала 55 и набор частотных наложений 40, содержит, по меньшей мере, одну подполосу 95 частот основной полосы 30 частот на частоте, превышающей частоту, по меньшей мере, одной подполосы частот в основной полосе частот. Следует отметить, что наложение аудиосигнала уже описано относительно фиг. 3 и в силу этого подробно не описывается в этой части описания. Просто следует упомянуть, что частотные наложения 40 могут представлять собой необработанный сигнал основной полосы частот, скопированный в верхние частоты, умноженные на коэффициент усиления, к которому может применяться фазовая коррекция. Кроме того, согласно предпочтительному варианту осуществления, умножение усиления и фазовой коррекции может переключаться таким образом, что фазы необработанного сигнала основной полосы частот копируются в верхние частоты до умножения на коэффициент усиления. Вариант осуществления дополнительно показывает модуль 200 вычисления фазовых ошибок, вычисляющий среднее значение элементов вектора фазовых ошибок 105', относящегося к первому наложению 40a набора частотных наложений 40, чтобы получать среднюю фазовую ошибку 105''. Кроме того, показан модуль 210 вычисления производных фазы аудиосигнала для вычисления среднего значения производных фазы 215 по частоте для основной полосы 30 частот.

Фиг. 28a показывает подробное описание фазового корректора 70' на блок-схеме. Фазовый корректор 70' в верхней части фиг. 28a сконфигурирован с возможностью коррекции фазы подполосных сигналов 95 в первом и последующих частотных наложениях 40 набора частотных наложений. В варианте осуществления по фиг. 28a проиллюстрировано то, что подполосы 95c и 95d частот принадлежат наложению 40a, и подполосы 95e частот и 95f принадлежат частотному наложению 40b. Фазы корректируются с использованием средневзвешенной фазовой ошибки, при этом средняя фазовая ошибка 105 взвешивается согласно индексу частотного наложения 40, чтобы получать модифицированный сигнал 40' наложения.

Дополнительный вариант осуществления проиллюстрирован в нижней части фиг. 28a. В левом верхнем углу фазового корректора 70', показан уже описанный вариант осуществления для получения модифицированного сигнала 40' наложения из наложений 40 и средней фазовой ошибки 105''. Кроме того, фазовый корректор 70' вычисляет на этапе инициализации дополнительный модифицированный сигнал 40'' наложения с оптимизированным первым частотным наложением посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством текущего индекса подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в основной полосе 30 частот аудиосигнала 55. Для этого этапа инициализации переключатель 220a находится в своей левой позиции. Для дальнейших этапов обработки, переключатель должен находиться в другой позиции, формирующей вертикально направленное соединение.

В дополнительном варианте осуществления, модуль 210 вычисления производных фазы аудиосигнала сконфигурирован с возможностью вычисления среднего значения производных фазы 215 по частоте для множества подполосных сигналов, содержащих более высокие частоты по сравнению с сигналом 30 основной полосы частот, чтобы обнаруживать переходные части в подполосном сигнале 95. Следует отметить, что коррекция переходных частей является аналогичной вертикальной фазовой коррекции аудиопроцессора 50' с тем отличием, что частоты в основной полосе 30 частот не отражают верхние частоты переходной части. Следовательно, эти частоты должны учитываться для фазовой коррекции переходной части.

После этапа инициализации, фазовый корректор 70' сконфигурирован с возможностью рекурсивного обновления, на основе частотных наложений 40, дополнительного модифицированного сигнала 40'' наложения посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы 95 частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении. Предпочтительный вариант осуществления является комбинацией вышеописанных вариантов осуществления, в которой фазовый корректор 70' вычисляет взвешенное среднее модифицированного сигнала 40' наложения и дополнительного модифицированного сигнала 40'' наложения, с тем чтобы получать комбинированный модифицированный сигнал 40''' наложения. Следовательно, фазовый корректор 70' рекурсивно обновляет, на основе частотных наложений 40, комбинированный модифицированный сигнал 40''' наложения посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы 95 частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении комбинированного модифицированного сигнала 40''' наложения. Чтобы получать комбинированные модифицированные наложения 40a''', 40b''' и т.д., переключатель 220b сдвигается в следующую позицию после каждой рекурсии, начиная в комбинированном модифицированном наложении 48''' для этапа инициализации, переключаясь на комбинированное модифицированное наложение 40b''' после первой рекурсии и т.д.

Кроме того, фазовый корректор 70' может вычислять взвешенное среднее сигнала 40' наложения и модифицированного сигнала 40'' наложения с использованием кругового среднего значения сигнала 40' наложения в текущем частотном наложении, взвешенного с помощью первой конкретной функции взвешивания, и модифицированного сигнала 40'' наложения в текущем частотном наложении, взвешенного с помощью конкретной функции взвешивания.

Чтобы предоставлять функциональную совместимость между аудиопроцессором 50 и аудиопроцессором 50', фазовый корректор 70' может формировать вектор фазовых отклонений, при этом фазовые отклонения вычисляются с использованием комбинированного модифицированного сигнала 40''' наложения и аудиосигнала 55.

Фиг. 28b иллюстрирует этапы фазовой коррекции с другой точки зрения. Для первого временного кадра 75a, сигнал 40' наложения извлекается посредством применения первого режима фазовой коррекции к наложениям аудиосигнала 55. Сигнал 40' наложения используется на этапе инициализации второго режима коррекции, чтобы получать модифицированный сигнал 40'' наложения. Комбинация сигнала 40' наложения и модифицированного сигнала 40'' наложения приводит к комбинированному модифицированному сигналу 40''' наложения.

Следовательно, второй режим коррекции применяется к комбинированному модифицированному сигналу 40''' наложения, с тем чтобы получать модифицированный сигнал 40'' наложения для второго временного кадра 75b. Дополнительно, первый режим коррекции применяется к наложениям аудиосигнала 55 во втором временном кадре 75b, чтобы получать сигнал 40' наложения. С другой стороны, комбинация сигнала 40' наложения и модифицированного сигнала 40'' наложения приводит к комбинированному модифицированному сигналу 40''' наложения. Схема обработки, описанная для второго временного кадра, применяется к третьему временному кадру 75c и всем дополнительным временным кадрам аудиосигнала 55, соответственно.

Фиг. 29 показывает подробную блок-схему модуля 65' определения целевых фазовых показателей. Согласно варианту осуществления, модуль 65' определения целевых фазовых показателей содержит модуль 130' извлечения потоков данных для извлечения позиции 230 пика и основной частоты позиций 235 пиков в текущем временном кадре аудиосигнала 55 из потока 135 данных. Альтернативно, модуль 65' определения целевых фазовых показателей содержит анализатор 225 аудиосигналов для анализа аудиосигнала 55 в текущем временном кадре, чтобы вычислять позицию 230 пика и основную частоту позиций 235 пиков в текущем временном кадре. Дополнительно, модуль определения целевых фазовых показателей содержит генератор 240 целевого спектра для оценки дополнительных позиций пиков в текущем временном кадре с использованием позиции 230 пика и основной частоты позиций 235 пиков.

Фиг. 30 иллюстрирует подробную блок-схему генератора 240 целевого спектра, описанного на фиг. 29. Генератор 240 целевого спектра содержит генератор 245 пиков для формирования последовательности 265 импульсов во времени. Формирователь 250 сигналов регулирует частоту последовательности импульсов согласно основной частоте позиций 235 пиков. Кроме того, модуль 255 позиционирования импульсов регулирует фазу последовательности 265 импульсов согласно позиции 230 пика. Другими словами, формирователь 250 сигналов изменяет форму случайной частоты последовательности 265 импульсов таким образом, что частота последовательности импульсов равна основной частоте позиций пиков аудиосигнала 55. Кроме того, модуль 255 позиционирования импульсов сдвигает фазу последовательности импульсов таким образом, что один из пиков последовательности импульсов равен позиции 230 пика. После этого, анализатор 260 спектра формирует фазовый спектр отрегулированной последовательности импульсов, при этом фазовый спектр сигнала временной области является целевым фазовым показателем 85'.

Фиг. 31 показывает принципиальную блок-схему декодера 110' для декодирования аудиосигнала 55. Декодер 110 содержит базовое декодирование 115, сконфигурированное с возможностью декодирования аудиосигнала 25 во временном кадре основной полосы частот, и модуль 120 наложения для наложения набора подполос 95 частот декодированной основной полосы частот, при этом набор подполос частот формирует наложение, на дополнительные подполосы частот во временном кадре, смежные с основной полосой частот, с тем чтобы получать аудиосигнал 32, содержащий частоты, превышающие частоты в основной полосе частот. Кроме того, декодер 110' содержит аудиопроцессор 50' для коррекции фаз подполос частот наложения согласно целевому фазовому показателю.

Согласно дополнительному варианту осуществления, модуль 120 наложения сконфигурирован с возможностью наложения набора подполос 95 частот аудиосигнала 25, при этом набор подполос частот формирует дополнительное наложение, на дополнительные подполосы частот временного кадра, смежные с наложением, и при этом аудиопроцессор 50' сконфигурирован с возможностью коррекции фаз в подполосах частот дополнительного наложения. Альтернативно, модуль 120 наложения сконфигурирован с возможностью наложения скорректированного наложения к дополнительным подполосам частот временного кадра, смежным с наложением.

Дополнительный вариант осуществления относится к декодеру для декодирования аудиосигнала, содержащего переходную часть, при этом аудиопроцессор 50' сконфигурирован с возможностью корректировать фазу переходной части. Обработка переходных частей описывается другими словами в разделе 8.4. Следовательно, декодер 110 содержит дополнительный аудиопроцессор 50' для приема дополнительной производной фазы частоты и коррекции переходных частей в аудиосигнале 32 с использованием принимаемой производной фазы или частоты. Кроме того, следует отметить, что декодер 110' по фиг. 31 является аналогичным декодеру 110 по фиг. 19, так что описание относительно основных элементов является взаимозаменяемым в случаях, не связанных с различиями в аудиопроцессорах 50 и 50'.

Фиг. 32 показывает кодер 155' для кодирования аудиосигнала 55. Кодер 155' содержит базовый кодер 160, анализатор 175' основной частоты, модуль 165 извлечения параметров и формирователь 170 выходных сигналов. Базовый кодер 160 сконфигурирован с возможностью базового кодирования аудиосигнала 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала 55. Анализатор 175' основной частоты анализирует позиции 230 пиков в аудиосигнале 55 или фильтрованной по нижним частотам версии аудиосигнала для получения оценки основной частоты позиций 235 пиков в аудиосигнале. Кроме того, модуль 165 извлечения параметров извлекает параметры 190 подполос частот аудиосигнала 55, не включенного в базовый кодированный аудиосигнал 145, и формирователь 170 выходных сигналов формирует выходной сигнал 135, содержащий базовый кодированный аудиосигнал 145, параметры 190, основную частоту позиций 235 пиков и одну из позиций 230 пиков. Согласно вариантам осуществления, формирователь 170 выходных сигналов сконфигурирован с возможностью формировать выходной сигнал 135 в последовательность кадров, при этом каждый кадр содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку основной частоты позиций 235 пиков и позиции 230 пика, где n≥2.

Фиг. 33 показывает вариант осуществления аудиосигнала 135, содержащего базовый кодированный аудиосигнал 145, содержащий сокращенное число подполос частот относительно исходного аудиосигнала 55, параметр 190, представляющий подполосы частот аудиосигнала, не включенные в базовый кодированный аудиосигнал, оценку основной частоты позиций 235 пиков и оценку 230 позиций пиков аудиосигнала 55. Альтернативно, аудиосигнал 135 формируется в последовательность кадров, при этом каждый кадр содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку основной частоты позиций 235 пиков и позиции 230 пика, где n≥2. Идея уже описана относительно фиг. 22.

Фиг. 34 показывает способ 3400 для обработки аудиосигнала с помощью аудиопроцессора. Способ 3400 содержит этап 3405 "определение целевого фазового показателя для аудиосигнала во временном кадре с целевым фазовым показателем", этап 3410 "вычисление фазовой ошибки с помощью модуля вычисления фазовых ошибок с использованием фазы аудиосигнала во временном кадре и целевом фазовом показателе" и этап 3415 "коррекция фазы аудиосигнала во временном кадре с фазовой коррекцией с использованием фазовой ошибки".

Фиг. 35 показывает способ 3500 для декодирования аудиосигнала с помощью декодера. Способ 3500 содержит этап 3505 "декодирование аудиосигнала во временном кадре основной полосы частот с помощью базового декодера", этап 3510 "наложение набора подполос частот декодированной основной полосы частот с помощью модуля наложения, при этом набор подполос частот формирует наложение, на дополнительные подполосы частот во временном кадре, смежные с основной полосой частот, с тем чтобы получать аудиосигнал, содержащий частоты, превышающие частоты в основной полосе частот" и этап 3515 "коррекция фаз с подполосами частот первого наложения с помощью аудиопроцессора согласно целевому фазовому показателю".

Фиг. 36 показывает способ 3600 для кодирования аудиосигнала с помощью кодера. Способ 3600 содержит этап 3605 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этап 3610 "анализ аудиосигнала или фильтрованной по нижним частотам версии аудиосигнала с помощью анализатора основной частоты для получения оценки основной частоты позиций пиков в аудиосигнале", этап 3615 "извлечение параметров подполос частот аудиосигнала, не включенного в базовый кодированный аудиосигнал, с помощью модуля извлечения параметров" и этап 3620 "формирование выходного сигнала с помощью формирователя выходных сигналов, содержащего базовый кодированный аудиосигнал, параметры, основную частоту позиций пиков и позицию пика".

Другими словами, предлагаемый алгоритм для коррекции ошибок во временных позициях гармоник работает следующим образом. Во-первых, вычисляется разность между фазовыми спектрами целевого сигнала и SBR-обработанного сигнала (

и

):

, (20a)

что проиллюстрировано на фиг. 37. Фиг. 37 показывает ошибку в фазовом спектре

сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью. В этот момент, целевой фазовый спектр предположительно может быть равным целевому фазовому спектру входного сигнала:

(20b)

Ниже представлено то, как целевой фазовый спектр может получаться с низкой скоростью передачи битов.

Коррекция вертикальной производной фазы выполняется с использованием двух способов, и конечный скорректированный фазовый спектр получается в качестве их сочетания.

Во-первых, можно видеть, что ошибка является относительно постоянной в частотном наложении, и ошибка перескакивает к новому значению при вводе нового частотного наложения. Это целесообразно, поскольку фаза изменяется с постоянным значением по частоте на всех частотах в исходном сигнале. Ошибка формируется на разделении, и ошибка остается постоянной в наложении. Таким образом, одного значения достаточно для коррекции фазовой ошибки для полного частотного наложения. Кроме того, фазовая ошибка верхних частотных наложений может корректироваться с использованием этого идентичного значения ошибки после умножения на числовой индекс частотного наложения.

Следовательно, круговое среднее значение фазовой ошибки вычисляется для первого частотного наложения:

. (21)

Фазовый спектр может корректироваться с его использованием:

. (22)

Эта необработанная коррекция приводит к точному результату, если целевой PDF, например, производная фазы

по частоте, является точно постоянным на всех частотах. Тем не менее, как можно видеть на фиг. 12, зачастую существует небольшое колебание по частоте в значении. Таким образом, лучшие результаты могут получаться посредством использования усовершенствованной обработки на разделениях во избежание неоднородностей в сформированной PDF. Другими словами, эта коррекция формирует корректные значения для PDF в среднем, но могут быть небольшие неоднородности на частотах разделения частотных наложений. Чтобы исключать их, их применяется способ коррекции. Конечный скорректированный фазовый спектр

получается в качестве сочетания двух способов коррекции.

Другой способ коррекции начинается посредством вычисления среднего значения PDF в основной полосе частот:

. (23)

Фазовый спектр может корректироваться с использованием этого показателя посредством такого допущения, что фаза изменяется с этим средним значением, т.е.:

, (24)

где

является комбинированным сигналом наложения двух способов коррекции.

Эта коррекция предоставляет хорошее качество на разделениях, но может вызывать уход в PDF к верхним частотам. Во избежание этого, два способа коррекции комбинируются посредством вычисления их взвешенного кругового среднего значения:

, (25)

где

обозначает способ коррекции (

или

), и

является функцией взвешивания:

(26a)

Результирующий фазовый спектр

не подвержен ни неоднородностям, ни уходу. Ошибка по сравнению с исходным спектром и PDF скорректированного фазового спектра проиллюстрированы на фиг. 38. Фиг. 38a показывает ошибку в фазовом спектре

сигнала тромбона в QMF-области с использованием SBR-сигнала с фазовой коррекцией, при этом фиг. 38b показывает соответствующую производную фазы

по частоте. Можно видеть, что ошибка значительно меньше, чем без коррекции, и PDF не подвержена существенным неоднородностям. Возникают значительные ошибки в определенных временных кадрах, но эти кадры имеют низкую энергию (см. фиг. 4), так что они имеют незначительный перцепционный эффект. Временные кадры со значительной энергией относительно хорошо корректируются. Можно отметить, что артефакты нескорректированной SBR значительно уменьшаются.

Скорректированный фазовый спектр

получается посредством конкатенации скорректированных частотных наложений

. Для обеспечения совместимости с режимом горизонтальной коррекции, вертикальная фазовая коррекция может представляться также с использованием матрицы модулятора (см. уравнение 18):

. (26b)

8.3. Переключение между различными способами фазовой коррекции

Разделы 8.1 и 8.2 показывают то, SBR-обусловленные фазовые ошибки могут корректироваться посредством применения PDT-коррекции к скрипке и PDF-коррекции к тромбону. Тем не менее, не рассматривается то, как узнавать, какая из коррекций должна применяться к неизвестному сигналу, либо то, должна или нет применяться какая-либо из них. Этот модуль предлагает способ для автоматического выбора направления коррекции. Направление коррекции (горизонтальное/вертикальное) определяется на основе варьирования производных фазы входного сигнала.

Следовательно, на фиг. 39, показан модуль вычисления для определения данных фазовой коррекции для аудиосигнала 55. Модуль 275 определения варьирования определяет варьирование фазы 45 аудиосигнала 55 в режиме первого и второго варьирования. Модуль 280 сравнения варьирования сравнивает первое варьирование 290a, определенное с использованием режима первого варьирования, и второе варьирование 290b, определенное с использованием режима второго варьирования, и модуль вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата модуля сравнения.

Кроме того, модуль 275 определения варьирования может быть сконфигурирован с возможностью определения показателя среднеквадратического отклонения производной фазы по времени (PDT) для множества временных кадров аудиосигнала 55 в качестве варьирования 290a фазы в режиме первого варьирования и определения показателя среднеквадратического отклонения производной фазы по частоте (PDF) для множества подполос частот аудиосигнала 55 в качестве варьирования 290b фазы в режиме второго варьирования. Следовательно, модуль 280 сравнения варьирования сравнивает показатель производной фазы по времени в качестве первого варьирования 290a и показатель производной фазы по частоте в качестве второго варьирования 290b для временных кадров аудиосигнала.

Варианты осуществления показывают модуль 275 определения варьирования для определения кругового среднеквадратического отклонения производной фазы по времени текущего и множества предыдущих кадров аудиосигнала 55 в качестве показателя среднеквадратического отклонения и для определения кругового среднеквадратического отклонения производной фазы по времени текущего и множества будущих кадров аудиосигнала 55 для текущего временного кадра в качестве показателя среднеквадратического отклонения. Кроме того, модуль 275 определения варьирования вычисляет, при определении первого варьирования 290a, минимум обоих круговых среднеквадратических отклонений. В дополнительном варианте осуществления, модуль 275 определения варьирования вычисляет варьирование 290a в режиме первого варьирования в качестве комбинации показателя среднеквадратического отклонения для множества подполос 95 частот во временном кадре 75, чтобы формировать усредненный показатель среднеквадратического отклонения частоты. Модуль 280 сравнения варьирования сконфигурирован с возможностью выполнения комбинации показателей среднеквадратического отклонения посредством вычисления среднего значения с энергетическим взвешиванием показателей среднеквадратического отклонения множества подполос частот с использованием значений амплитуды подполосного сигнала 95 в текущем временном кадре 75 в качестве показателя энергии.

В предпочтительном варианте осуществления, модуль 275 определения варьирования сглаживает усредненный показатель среднеквадратического отклонения, при определении первого варьирования 290a, по текущему, множеству предыдущих и множеству будущих временных кадров. Сглаживание взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров и функции кодирования со взвешиванием. Кроме того, модуль 275 определения варьирования сконфигурирован с возможностью сглаживания показателя среднеквадратического отклонения, при определении второго варьирования 290b по текущему, множеству предыдущих и множеству будущих временных кадров 75, при этом сглаживание взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров 75, и функции кодирования со взвешиванием. Следовательно, модуль 280 сравнения варьирования сравнивает показатель сглаженного среднего среднеквадратического отклонения в качестве первого варьирования 290a, определенного с использованием режима первого варьирования, и сравнивает показатель сглаженного среднеквадратического отклонения в качестве второго варьирования 290b, определенного с использованием режима второго варьирования.

Предпочтительный вариант осуществления проиллюстрирован на фиг. 40. Согласно этому варианту осуществления, модуль 275 определения варьирования содержит два тракта обработки для вычисления первого и второго варьирования. Первое наложение обработки содержит PDT-модуль 300a вычисления для вычисления показателя среднеквадратического отклонения производной фазы 305a по времени из аудиосигнала 55 или фазы аудиосигнала. Модуль 310a вычисления кругового среднеквадратического отклонения определяет первое круговое среднеквадратическое отклонение 315a и второе круговое среднеквадратическое отклонение 315b из показателя среднеквадратического отклонения производной фазы 305a по времени. Первое и второе круговые среднеквадратические отклонения 315a и 315b сравниваются посредством модуля 320 сравнения. Модуль 320 сравнения вычисляет минимум 325 двух показателей кругового среднеквадратического отклонения 315a и 315b. Модуль комбинирования комбинирует минимум 325 по частоте, чтобы формировать показатель 335a среднего среднеквадратического отклонения. Модуль 340a сглаживания сглаживает показатель 335a среднего среднеквадратического отклонения, чтобы формировать показатель 345a сглаженного среднего среднеквадратического отклонения.

Второй тракт обработки содержит PDF-модуль 300b вычисления для вычисления производной фазы 305b по частоте из аудиосигнала 55 или фазы аудиосигнала. Модуль 310b вычисления кругового среднеквадратического отклонения формирует показатели 335b среднеквадратического отклонения производной фазы 305 по частоте. Показатель 305 среднеквадратического отклонения сглаживается посредством модуля 340b сглаживания, чтобы формировать показатель 345b сглаженного среднеквадратического отклонения. Показатели 345a сглаженного среднего среднеквадратического отклонения и показатель 345b сглаженного среднеквадратического отклонения являются первым и вторым варьированием, соответственно. Модуль 280 сравнения варьирования сравнивает первое и второе варьирование, и модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции на основе сравнения первого и второго варьирования.

Дополнительные варианты осуществления показывают модуль 270 вычисления, обрабатывающий три различных режима фазовой коррекции. Блок-схема чертежа показана на фиг. 41. Фиг. 41 показывает модуль 275 определения варьирования, дополнительно определяющий третье варьирование 290c фазы аудиосигнала 55 в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей. Модуль 280 сравнения варьирования сравнивает первое варьирование 290a, определенное с использованием режима первого варьирования, второе варьирование 290b, определенное с использованием режима второго варьирования, и третье варьирование 290c, определенное с использованием третьего варьирования. Следовательно, модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с первым режимом коррекции, вторым режимом коррекции или третьим режимом коррекции, на основе результата сравнения. Для вычисления третьего варьирования 290c в режиме третьего варьирования, модуль 280 сравнения варьирования может быть сконфигурирован с возможностью вычисления мгновенной энергетической оценки текущего временного кадра и усредненной во времени энергетической оценки множества временных кадров 75. Следовательно, модуль 280 сравнения варьирования сконфигурирован с возможностью вычисления отношения мгновенной энергетической оценки и усредненной во времени энергетической оценки и сконфигурирован с возможностью сравнения отношения с заданным пороговым значением, чтобы обнаруживать переходные части во временном кадре 75.

Модуль 280 сравнения варьирования должен определять подходящий режим коррекции на основе трех варьирований. На основе этого решения, модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом третьего варьирования, если обнаруживается переходная часть. Кроме того, модуль 85 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом первого варьирования, если отсутствие переходной части обнаруживается, и если первое варьирование 290a, определенное в режиме первого варьирования, меньше или равно второму варьированию 290b, определенному в режиме второго варьирования. Соответственно, данные 295 фазовой коррекции вычисляются в соответствии с режимом второго варьирования, если обнаруживается отсутствие переходной части, и если второе варьирование 290b, определенное в режиме второго варьирования, меньше первого варьирования 290a, определенного в режиме первого варьирования.

Модуль вычисления корректирующих данных дополнительно сконфигурирован с возможностью вычисления данных 295 фазовой коррекции для третьего варьирования 290c для текущего, одного или более предыдущих и одного или более будущих временных кадров. Соответственно, модуль 285 вычисления корректирующих данных сконфигурирован с возможностью вычисления данных 295 фазовой коррекции для режима второго варьирования 290b для текущего, одного или более предыдущих и одного или более будущих временных кадров. Кроме того, модуль 285 вычисления корректирующих данных сконфигурирован с возможностью вычисления корректирующих данных 295 для горизонтальной фазовой коррекции и режима первого варьирования, вычисления корректирующих данных 295 для вертикальной фазовой коррекции в режиме второго варьирования и вычисления корректирующих данных 295 для коррекции переходных частей в режиме третьего варьирования.

Фиг. 42 показывает способ 4200 для определения данных фазовой коррекции из аудиосигнала. Способ 4200 содержит этап 4205 "определение варьирования фазы аудиосигнала с помощью модуля определения варьирования в режиме первого и второго варьирования", этап 4210 "сравнение варьирования, определенного с использованием режима первого и второго варьирования, с помощью модуля сравнения варьирования" и этап 4215 "вычисление фазовой коррекции с помощью модуля вычисления корректирующих данных в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения".

Другими словами, PDT скрипки является сглаженной во времени, тогда как PDF тромбона является сглаженной по частоте. Следовательно, среднеквадратическое отклонение (STD) этих показателей в качестве показателя варьирования может использоваться для того, чтобы выбирать надлежащий способ коррекции. STD производной фазы по времени может вычисляться следующим образом:

, (27)

и STD производной фазы по частоте следующим образом:

, (28)

где

обозначает вычислительное круговое STD (значения угла потенциально могут быть взвешены посредством энергии во избежание высокого STD вследствие зашумленных низкоэнергетических элементов выборки, или вычисление STD может ограничиваться элементами выборки с достаточной энергией). STD для скрипки и тромбона показаны на фиг. 43a, 43b и фиг. 43c, 43d, соответственно. Фиг. 43a и c показывают среднеквадратическое отклонение производной фазы

по времени в QMF-области, при этом фиг. 43b и 43d показывают соответствующее среднеквадратическое отклонение

по частоте без фазовой коррекции. Цветовой градиент указывает значения от красного цвета=1 до синего цвета=0. Можно видеть, что STD PDT является более низким для скрипки, тогда как STD PDF является более низким для тромбона (специально для частотно-временных мозаичных фрагментов, которые имеют высокую энергию).

Используемый способ коррекции для каждого временного кадра выбирается на основе того, какое из STD является более низким. Для этого, значения

должны комбинироваться по частоте. Объединение выполняется посредством вычисления среднего значения с энергетическим взвешиванием для предварительно заданного частотного диапазона:

(29)

Оценки отклонения сглаживаются во времени, чтобы иметь сглаженное переключение и в силу этого исключать потенциальные артефакты. Сглаживание выполняется с использованием взвешивающей функции Ханна, и оно взвешивается посредством энергии временного кадра:

, (30)

где

является функцией кодирования со взвешиванием, и

является суммой

по частоте. Соответствующее уравнение используется для сглаживания

.

Способ фазовой коррекции определяется посредством сравнения

и

. Способ по умолчанию представляет собой PDT-(горизонтальную) коррекцию, а если

, PDF-(вертикальная) коррекция применяется для интервала

. Если оба из отклонений являются большими, например, превышающими предварительно заданное пороговое значение, ни один из способов коррекции не применяется, и может достигаться экономия по скорости передачи битов.

8.4. Обработка переходных частей: коррекция производной фазы для переходных частей

Сигнал скрипки с аплодисментами, добавленными в середине, представляется на фиг. 44. Амплитуда

сигнала скрипки+аплодисментов в QMF-области показана на фиг. 44a, а соответствующий фазовый спектр

- на фиг. 44b. Относительно фиг. 44a, цветовой градиент указывает значения амплитуды от красного цвета=0 дБ до синего цвета=-80 дБ. Соответственно, для фиг. 44b, градиент фазы указывает значения фазы от красного цвета=

до синего цвета=

. Производные фазы по времени и по частоте представляются на фиг. 45. Производная фазы

по времени сигнала скрипки+аплодисментов в QMF-области показана на фиг. 45a, а соответствующая производная фазы

по частоте - на фиг. 45b. Цветовой градиент указывает значения фазы от красного цвета=

до синего цвета=

. Можно видеть, что PDT является зашумленной для аплодисментов, но PDF является в некоторой степени сглаженной, по меньшей мере, на высоких частотах. Таким образом, PDF-коррекция должна применяться для аплодисментов, чтобы поддерживать их резкость. Тем не менее, способ коррекции, предлагаемый в разделе 8.2, не может работать надлежащим образом с этим сигналом, поскольку звук скрипки возмущает производные на низких частотах. Как результат, фазовый спектр основной полосы частот не отражает высокие частоты, и в силу этого фазовая коррекция частотных наложений с использованием одного значения не может работать. Кроме того, обнаружение переходных частей на основе варьирования PDF-значения (см. раздел 8.3) является затруднительным вследствие зашумленных PDF-значений на низких частотах.

Решение проблемы является несложным. Во-первых, переходные части обнаруживаются с использованием простого способа на основе энергии. Мгновенная энергия средних/высоких частот сравнивается со сглаженной энергетической оценкой. Мгновенная энергия средних/высоких частот вычисляется следующим образом:

(31)

Сглаживание выполняется с использованием IIR-фильтра первого порядка:

. (32)

Если

, переходная часть обнаружена. Пороговое значение

может подстраиваться, чтобы обнаруживать требуемую величину переходных частей. Например, может использоваться

. Обнаруженный кадр не выбирается непосредственно в качестве переходного кадра. Вместо этого, выполняется поиск локального энергетического максимума из его окружения. В текущей реализации, выбранный интервал составляет

. Временной кадр с максимальной энергией в этом интервале выбирается в качестве переходной части.

В теории, режим вертикальной коррекции также может применяться для переходных частей. Тем не менее, в случае переходных частей, фазовый спектр основной полосы частот зачастую не отражает высокие частоты. Это может приводить к опережающим и запаздывающим эхо в обработанном сигнале. Таким образом, немного модифицированная обработка предлагается для переходных частей.

Средний PDF переходной части на высоких частотах вычисляется:

. (33)

Фазовый спектр для переходного кадра синтезируется с использованием этого постоянного изменения фазы, как указано в уравнении 24, но

заменен посредством

. Идентичная коррекция применяется к временным кадрам в интервале

(

суммируется с PDF кадров

и

вследствие свойств QMF, см. раздел 6). Эта коррекция уже формирует переходную часть для подходящей позиции, но форма переходной части не обязательно является желательной, и значительные боковые лепестки (т.е. дополнительные переходные части) могут присутствовать вследствие значительного временного перекрытия QMF-кадров. Следовательно, абсолютный фазовый угол также должен быть корректным. Абсолютный угол корректируется посредством вычисления средней ошибки между синтезированным и исходным фазовым спектром. Коррекция выполняется отдельно для каждого временного кадра переходной части.

Результат коррекции переходных частей представляется на фиг. 46. Показана производная фазы

по времени сигнала скрипки+аплодисментов в QMF-области с использованием SBR с фазовой коррекцией. Фиг. 47b показывает соответствующую производную фазы

по частоте. С другой стороны, цветовой градиент указывает значения фазы от красного цвета=

до синего цвета=

. Может быть такое восприятие, что аплодисменты с фазовой коррекцией имеют резкость, идентичную резкости исходного сигнала, хотя разность по сравнению с прямой перезаписью не является большой. Следовательно, коррекция переходных частей не обязательно требуется во всех случаях, когда обеспечивается только прямая перезапись. Наоборот, если обеспечивается PDT-коррекция, важно иметь обработку переходных частей, поскольку PDT-коррекция в противном случае сильно размывает переходные части.

9. Сжатие корректирующих данных

Раздел 8 показывает то, что фазовые ошибки могут корректироваться, но соответствующая скорость передачи битов для коррекции вообще не рассматривается. Этот раздел предлагает способы для того, как представлять корректирующие данные с низкой скоростью передачи битов.

9.1. Сжатие корректирующих PDT-данных: создание целевого спектра для горизонтальной коррекции

Предусмотрено множество возможных параметров, которые могут передаваться, чтобы обеспечивать PDT-коррекцию. Тем не менее, поскольку

сглаживается во времени, он представляет собой потенциальный возможный вариант для передачи с низкой скоростью передачи битов.

Во-первых, поясняется соответствующая скорость обновления для параметров. Значение обновляется только для каждых N кадров и линейно интерполируется в промежутках. Интервал обновления для хорошего качества составляет приблизительно 40 мс. Для определенных сигналов, преимущественным является немного меньше, а для других - немного больше. Формальные тесты на основе прослушивания должны быть полезными для оценки оптимальной скорости обновления. Тем не менее, обнаруживается, что относительно длительный интервал обновления является приемлемым.

Также изучена надлежащая угловая точность для

. 6 битов (64 возможных значений угла) достаточно для перцепционно хорошего качества. Кроме того, тестируется передача только изменения значения. Зачастую обнаруживается, что значения изменяются очень незначительно, так что неравномерное квантование может применяться, чтобы иметь большую точность для небольших изменений. При использовании этого подхода, выявлено, что 4 бита (16 возможных значений угла) предоставляют хорошее качество.

Последним аспектом для рассмотрения является соответствующая спектральная точность. Как можно видеть на фиг. 17, множество полос частот, по-видимому, совместно используют примерно идентичное значение. Таким образом, одно значение может, вероятно, использоваться для того, чтобы представлять несколько полос частот. Помимо этого, на высоких частотах предусмотрено несколько гармоник внутри одной полосы частот, так что, вероятно, требуется меньшая точность. Тем не менее, выявлен другой, потенциально лучший подход, так что эти варианты тщательно не анализируются. Далее поясняется предлагаемый более эффективный подход.

9.1.1. Использование оценки частоты для сжатия корректирующих PDT-данных

Как пояснено в разделе 5, производная фазы по времени по существу означает частоту сформированной синусоиды. PDT применяемого 64-полосного комплексного QMF могут преобразовываться в частоты с использованием следующего уравнения:

(34)

Сформированные частоты находятся внутри интервала

, где

является центральной частотой полосы

частот, и

составляет 375 Гц. Результат показан на фиг. 47 в частотно-временном представлении частот QMF-полос

частот для сигнала скрипки. Можно видеть, что частоты, по-видимому, соответствуют кратным основной частоты тона, и гармоники в силу этого разнесены по частоте посредством основной частоты. Помимо этого, вибрато, по-видимому, вызывает частотную модуляцию.

Идентичный график может применяться к прямой перезаписи

и к скорректированной

SBR (см. фиг. 48a и фиг. 48b, соответственно). Фиг. 48a показывает частотно-временное представление частот QMF-полос частот SBR-сигнала

с прямой перезаписью по сравнению с исходным сигналом

, показанным на фиг. 47. Фиг. 48b показывает соответствующий график для скорректированного SBR-сигнала

. На графиках по фиг. 48a и фиг. 48b, исходный сигнал нарисован в синем цвете, при этом SBR с прямой перезаписью и скорректированные SBR-сигналы нарисованы в красном цвете. Негармоничность SBR с прямой перезаписью может наблюдаться на чертеже, в частности, в начале и конце выборки. Помимо этого, можно видеть, что глубина частотной модуляции явно меньше глубины частотной модуляции исходного сигнала. Наоборот, в случае скорректированной SBR, частоты гармоник, по-видимому, соответствуют частотам исходного сигнала. Помимо этого, обнаруживается, что глубина модуляции является корректной. Таким образом, этот график, по-видимому, подтверждает достоверность предлагаемого способа коррекции. Следовательно, после этого он концентрируется на фактическом сжатии корректирующих данных.

Поскольку частоты

разнесены на одинаковую величину, частоты всех полос частот могут быть аппроксимированы, если разнесение между частотами оценивается и передается. В случае гармонических сигналов, разнесение должно быть равно основной частоте тона. Таким образом, только одно значение должно передаваться для представления всех полос частот. В случае более нерегулярных сигналов, большее число значений необходимо для описания характера изменения гармоник. Например, разнесение гармоник немного увеличивается в случае тона фортепьяно [14]. Для простоты, далее предполагается, что гармоники разнесены на одинаковую величину. Тем не менее, это не ограничивает общность описанной аудиообработки.

Таким образом, основная частота тона оценивается для оценки частот гармоник. Оценка основной частоты является широко изучаемой темой (например, см. [14]). Следовательно, реализован простой способ оценки для того, чтобы формировать данные, используемые для последующей этапов обработки. Способ по существу вычисляет разнесения гармоник и комбинирует результат согласно некоторой эвристике (сколько энергии, насколько стабильным является значение по частоте и по времени и т.д.). В любом случае, результат представляет собой оценку основной частоты для каждого временного кадра

. Другими словами, производная фазы по времени связана с частотой соответствующего QMF-элемента выборки. Помимо этого, артефакты, связанные с ошибками в PDT, являются воспринимаемыми главным образом с гармоническими сигналами. Таким образом, следует предполагать, что целевая PDT (см. уравнение 16a) может оцениваться с использованием оценки основной частоты

. Оценка основной частоты является широко изучаемой темой, и доступно множество надежных способов для получения надежных оценок основной частоты.

Здесь, предполагается основная частота

, известная декодеру до выполнения BWE и использования изобретаемой фазовой коррекции в BWE. Следовательно, преимущественно, если стадия кодирования передает оцененную основную частоту

. Помимо этого, для повышенной эффективности кодирования, значение может обновляться, например, только каждый 20-й временной кадр (соответствующий интервалу в -27 мс) и интерполироваться в промежутке.

Альтернативно, основная частота может оцениваться на стадии кодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.

Обработка декодера начинается посредством получения оценки

основной частоты для каждого временного кадра.

Частоты гармоник могут получаться посредством их умножения на индексный вектор:

(35)

Результат проиллюстрирован на фиг. 49. Фиг. 49 показывает частотно-временное представление оцененных частот гармоник

по сравнению с частотами QMF-полос частот исходного сигнала

. С другой стороны, синий цвет указывает исходный сигнал, а красный - оцененный сигнал. Частоты оцененных гармоник достаточно хорошо совпадают с исходным сигналом. Эти частоты могут рассматриваться в качестве "разрешенных" частот. Если алгоритм формирует эти частоты, должны исключаться связанные с негармоничностью артефакты.

Передаваемый параметр алгоритма является основной частотой

. Для повышенной эффективности кодирования, значение обновляется только для каждого 20-го временного кадра (т.е. каждые 27 мс). Обнаруживается, что это значение предоставляет хорошее перцепционное качество на основе неформального прослушивания. Тем не менее, формальные тесты на основе прослушивания являются полезными для оценки более оптимального значения для скорости обновления.

Следующий этап алгоритма заключается в том, чтобы находить подходящее значение для каждой полосы частот. Это выполняется посредством выбора значения

, которое является ближайшим к центральной частоте каждой полосы

частот, чтобы отражать эту полосу частот. Если ближайшее значение находится за пределами возможных значений полосы (

) частот, используется граничное значение полосы частот. Результирующая матрица

содержит частоту для каждого частотно-временного мозаичного фрагмента.

Конечный этап алгоритма сжатия корректирующих данных заключается в том, чтобы преобразовывать данные по частоте обратно в PDT-данные:

, (36)

где mod() обозначает оператор по модулю. Фактический алгоритм коррекции работает так, как представлено в разделе 8.1.

в уравнении 16a заменен посредством

в качестве целевой PDT, и уравнения 17-19 используются, аналогично разделу 8.1. Результат алгоритма коррекции со сжатыми корректирующими данными показан на фиг 50. Фиг. 50 показывает ошибку в PDT

сигнала скрипки в QMF-области скорректированной SBR со сжатыми корректирующими данными. Фиг. 50b показывает соответствующую производную фазы

по времени. Цветовые градиенты указывают значения от красного цвета=

до синего цвета=

. PDT-значения соответствуют PDT-значениям исходного сигнала с точностью, аналогичной точности способа коррекции без сжатия данных (см. фиг. 18). Таким образом, алгоритм сжатия является допустимым. Воспринимаемое качество с и без сжатия корректирующих данных является аналогичным.

Варианты осуществления используют большую точность для низких частот и меньшую для высоких частот, с использованием всего 12 битов для каждого значения. Результирующая скорость передачи битов составляет приблизительно 0,5 Кбит/с (без сжатия, к примеру, энтропийного кодирования). Эта точность формирует равное воспринимаемое качество в качестве отсутствия квантования. Тем не менее, вероятно, может использоваться значительно более низкая скорость передачи битов, во многих случаях формирующая достаточно хорошее воспринимаемое качество.

Один вариант для схем с низкой скоростью передачи битов заключается в том, чтобы оценивать основную частоту в фазе декодирования с использованием передаваемого сигнала. В этом случае, значения не должны передаваться. Другой вариант заключается в том, чтобы оценивать основную частоту с использованием передаваемого сигнала, сравнивать ее с оценкой, полученной с использованием широкополосного сигнала, и передавать только разность. Можно предполагать, что эта разность может быть представлена с использованием очень низкой скорости передачи битов.

9.2. Сжатие корректирующих PDF-данных

Как пояснено в разделе 8.2, соответствующие данные для PDF-коррекции являются средней фазовой ошибкой первого частотного наложения

. Коррекция может выполняться для всех частотных наложений с помощью сведений по этому значению, так что требуется передача только одного значения для каждого временного кадра. Тем не менее, передача даже одного значения для каждого временного кадра может давать в результате слишком высокую скорость передачи битов.

При проверке фиг. 12 для тромбона, можно видеть, что PDF имеет относительно постоянное значение по частоте, и идентичное значение присутствует для нескольких временных кадров. Значение является постоянным во времени при условии, что идентичная переходная часть доминирует над энергией окна кодирования со взвешиванием для QMF-анализа. Когда новая переходная часть начинает быть доминирующей, новое значение присутствует. Обнаруживается, что изменение угла между этими PDF-значениями является идентичным для различных переходных частей. Это целесообразно, поскольку PDF управляет временным местоположением переходной части, и если сигнал имеет постоянную основную частоту, разнесение между переходными частями должно быть постоянным.

Следовательно, PDF (или местоположение переходной части) может передаваться только разреженно во времени, и характер изменения PDF в промежутке между этими моментами времени может оцениваться с использованием сведений по основной частоте. PDF-коррекция может выполняться с использованием этой информации. Эта идея фактически является параллельной с PDT-коррекцией, при которой предполагается, что частоты гармоник равномерно разнесены. Здесь используется идентичная идея, но вместо этого предполагается, что временные местоположения переходных частей равномерно разнесены. Ниже предлагается способ, который основан на обнаружении позиций пиков в форме сигнала, и с использованием этой информации создается опорный спектр для фазовой коррекции.

9.2.1. Использование обнаружения пиков для сжатия корректирующих PDF-данных: создание целевого спектра для вертикальной коррекции

Позиции пиков должны оцениваться для выполнения успешной PDF-коррекции. Одно решение заключается в том, чтобы вычислять позиции пиков с использованием PDF-значения, аналогично уравнению 34, и оценивать позиции пиков в промежутке с использованием оцененной основной частоты. Тем не менее, этот подход требует относительно стабильной оценки основной частоты. Варианты осуществления показывают простой, быстрый в реализации альтернативный способ, который показывает то, что предлагаемый подход на основе сжатия является возможным.

Представление во временной области сигнала тромбона показано на фиг. 51. Фиг. 51a показывает форму сигнала для сигнала тромбона в представлении во временной области. Фиг. 51b показывает соответствующий сигнал временной области, который содержит только оцененные пики, при этом позиции пиков получены с использованием передаваемых метаданных. Сигнал на фиг. 51b представляет собой описанную последовательность 265 импульсов, например, относительно фиг. 30. Алгоритм начинается посредством анализа позиций пиков в форме сигнала. Это выполняется посредством поиска локальных максимумов. Каждые 27 мс (т.е. для каждых 20 QMF-кадров) передается местоположение пика, ближайшего к центральной точке кадра. Между передаваемыми местоположениями пиков, предполагается, что пики равномерно разнесены во времени. Таким образом, посредством сведений по основной частоте, могут оцениваться местоположения пиков. В этом варианте осуществления, передается определенное число обнаруженных пиков (следует отметить, что это требует успешного обнаружения всех пиков; оценка на основе основной частоты, вероятно, должна давать в результате более надежные результаты). Результирующая скорость передачи битов составляет приблизительно 0,5 Кбит/с (без сжатия, к примеру, энтропийного кодирования), что состоит из передачи местоположения пика для каждых 27 мс с использованием 9 битов и передачи числа переходных частей в промежутке с использованием 4 битов. Выявлено, что эта точность формирует равное воспринимаемое качество в качестве отсутствия квантования. Тем не менее, вероятно, может использоваться значительно более низкая скорость передачи битов, во многих случаях формирующая достаточно хорошее воспринимаемое качество.

С использованием передаваемых метаданных создается сигнал временной области, который состоит из импульсов в позициях оцененных пиков (см. фиг. 51b). QMF-анализ выполняется для этого сигнала, и вычисляется фазовый спектр

. Фактическая PDF-коррекция выполняется по-другому, как предложено в разделе 8.2, но

в уравнении 20a заменен посредством

.

Форма сигнала для сигналов, имеющих вертикальную фазовую когерентность, типично является пиковой и напоминает последовательность импульсов. Таким образом, следует предполагать, что целевой фазовый спектр для вертикальной коррекции может оцениваться посредством моделирования его в качестве фазового спектра последовательности импульсов, которая имеет пики в соответствующих позициях и соответствующей основной частоте.

Позиция, ближайшая к центру временного кадра, передается, например, для каждого 20-го временного кадра (соответствующего интервалу в -27 мс). Оцененная основная частота, которая передается с равной скоростью, используется для того, чтобы интерполировать позиции пиков в промежутке между передаваемыми позициями.

Альтернативно, основная частота и позиции пиков могут оцениваться на стадии декодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.

основной частоты для каждого временного кадра, и помимо этого, оцениваются позиции пиков в форме сигнала. Позиции пиков используются для того, чтобы создавать сигнал временной области, который состоит из импульсов в этих позициях. QMF-анализ используется для того, чтобы создавать соответствующий фазовый спектр

. Этот оцененный фазовый спектр может использоваться в уравнении 20a в качестве целевого фазового спектра:

. (37)

Предлагаемый способ использует стадию кодирования для того, чтобы передавать только оцененные позиции пиков и основные частоты со скоростью обновления, например, в 27 мс. Помимо этого, следует отметить, что ошибки в вертикальной производной фазы являются воспринимаемыми только тогда, когда основная частота является относительно низкой. Таким образом, основная частота может передаваться с относительно низкой скоростью передачи битов.

Результат алгоритма коррекции со сжатыми корректирующими данными показан на фиг 52. Фиг. 52a показывает ошибку в фазовом спектре

сигнала тромбона в QMF-области со скорректированной SBR и сжатыми корректирующими данными. Соответственно, фиг. 52b показывает соответствующую производную фазы

по частоте. Цветовой градиент указывает значения от красного цвета=

до синего цвета=

. PDF-значения соответствуют PDF-значениям исходного сигнала с точностью, аналогичной точности способа коррекции без сжатия данных (см. фиг. 13). Таким образом, алгоритм сжатия является допустимым. Воспринимаемое качество с и без сжатия корректирующих данных является аналогичным.

9.3. Сжатие данных обработки переходных частей

Поскольку переходные части предположительно могут быть относительно разреженными, можно предполагать, что эти данные могут непосредственно передаваться. Варианты осуществления показывают передачу шести значений в расчете на переходную часть: одно значение для средней PDF и пять значений для ошибок в абсолютном фазовом угле (одно значение для каждого временного кадра в интервале

). Альтернатива заключается в том, чтобы передавать позицию переходной части (т.е. одно значение) и оценивать целевой фазовый спектр

, как и в случае вертикальной коррекции.

Если скорость передачи битов должна сжиматься для переходных частей, может использоваться аналогичный подход, что и для PDF-коррекции (см. раздел 9.2). Может передаваться просто позиция переходной части, т.е. одно значение. Целевой фазовый спектр и целевой PDF могут получаться с использованием этого значения местоположения, аналогично разделу 9.2.

Альтернативно, позиция переходной части может оцениваться на стадии декодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.

Все вышеописанные варианты осуществления могут рассматриваться отдельно от других вариантов осуществления или в комбинации вариантов осуществления. Следовательно, фиг. 53-57 представляют кодер и декодер, комбинирующие некоторые вышеописанные варианты осуществления.

Фиг. 53 показывает декодер 110'' для декодирования аудиосигнала. Декодер 110'' содержит генератор 65a первого целевого спектра, первый фазовый корректор 70a и модуль 350 вычисления подполосных аудиосигналов. Генератор 65a первого целевого спектра, также называемый модулем определения целевых фазовых показателей, формирует целевой спектр 85a'' для первого временного кадра подполосного сигнала для аудиосигнала 32 с использованием первых корректирующих данных 295a. Первый фазовый корректор 70a корректирует фазу 45 подполосного сигнала в первом временном кадре аудиосигнала 32, определенную с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала 32 и целевым спектром 85''. Модуль 350 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал 355 для первого временного кадра с использованием скорректированной фазы 91a для временного кадра. Альтернативно, модуль 350 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал 355 для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала 85a'' во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции. Фиг. 53 дополнительно показывает анализатор 360, который необязательно анализирует аудиосигнал 32 относительно амплитуды 47 и фазы 45. Дополнительный алгоритм фазовой коррекции может выполняться во втором фазовом корректоре 70b или третьем фазовом корректоре 70c. Эти дополнительные фазовые корректоры проиллюстрированы относительно фиг. 54. Модуль 250 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал для первого временного кадра с использованием скорректированной фазы 91 для первого временного кадра и значения 47 амплитуды подполосного аудиосигнала первого временного кадра, при этом значение 47 амплитуды является амплитудой аудиосигнала 32 в первом временном кадре или обработанной амплитудой аудиосигнала 35 в первом временном кадре.

Фиг. 54 показывает дополнительный вариант осуществления декодера 110''. Следовательно, декодер 110'' содержит генератор 65b второго целевого спектра, при этом генератор 65b второго целевого спектра формирует целевой спектр 85b'' для второго временного кадра подполосы частот аудиосигнала 32 с использованием вторых корректирующих данных 295b. Детектор 110'' дополнительно содержит второй фазовый корректор 70b для коррекции фазы 45 подполосы частот во временном кадре аудиосигнала 32, определенной с помощью второго алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем временного кадра подполосы частот аудиосигнала и целевым спектром 85b''.

Соответственно, декодер 110'' содержит генератор 65c третьего целевого спектра, при этом генератор 65c третьего целевого спектра формирует целевой спектр для третьего временного кадра подполосы частот аудиосигнала 32 с использованием третьих корректирующих данных 295c. Кроме того, декодер 110'' содержит третий фазовый корректор 70c для коррекции фазы 45 подполосного сигнала и временного кадра аудиосигнала 32, определенной с помощью третьего алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем временного кадра подполосы частот аудиосигнала и целевым спектром 85c. Модуль 350 вычисления подполосных аудиосигналов может вычислять подполосный аудиосигнал для третьего временного кадра, отличающегося от первого и второго временных кадров, с использованием фазовой коррекции третьего фазового корректора.

Согласно варианту осуществления, первый фазовый корректор 70a сконфигурирован с возможностью сохранения подполосного сигнала 91a с фазовой коррекцией предыдущего временного кадра аудиосигнала или приема подполосного сигнала с фазовой коррекцией предыдущего временного кадра 375 аудиосигнала из второго фазового корректора 70b третьего фазового корректора 70c. Кроме того, первый фазовый корректор 70a корректирует фазу 45 аудиосигнала 32 в текущем временном кадре подполосного аудиосигнала на основе сохраненного или принимаемого подполосного сигнала с фазовой коррекцией предыдущего временного кадра 91a, 375.

Дополнительные варианты осуществления показывают первый фазовый корректор 70a, выполняющий горизонтальную фазовую коррекцию, второй фазовый корректор 70b, выполняющий вертикальную фазовую коррекцию, и третий фазовый корректор 70c, выполняющий фазовую коррекцию для переходных частей.

С другой точки зрения фиг. 54 показывает блок-схему стадии декодирования в алгоритме фазовой коррекции. Ввод в обработку представляет собой BWE-сигнал в частотно-временной области и метаданные. С другой стороны, в практических вариантах применения, изобретаемая коррекция производной фазы является предпочтительной для того, чтобы совместно использовать гребенку фильтров или преобразование существующей BWE-схемы. В текущем примере, она представляет собой QMF-область, используемую в SBR. Первый демультиплексор (не проиллюстрирован) извлекает корректирующие данные производной фазы из потока битов перцепционного кодека с поддержкой BWE, который улучшается посредством изобретаемой коррекции.

Второй демультиплексор 130 (демультиплексор) сначала разделяет принимаемые метаданные 135 на активирующие данные 365 и корректирующие данные 295a-c для различных режимов коррекции. На основе активирующих данных, вычисление целевого спектра активируется для правильного режима коррекции (другие могут быть деактивированы). С использованием целевого спектра, фазовая коррекция выполняется в принимаемый сигнал BWE с использованием требуемого режима коррекции. Следует отметить, что поскольку горизонтальная коррекция 70a выполняется рекурсивно (другими словами: в зависимости от предыдущих кадров сигналов), она принимает предыдущие матрицы коррекции также из других режимов 70b,c коррекции. В завершение, скорректированный сигнал или необработанный сигнала задается в качестве вывода на основе активирующих данных.

После коррекции данных по фазе, на последующих стадиях продолжается базовый BWE-синтез, в случае текущего примера SBR-синтез. Могут существовать варьирования, в которых конкретно фазовая коррекция вставляется в последовательность сигналов для BWE-синтеза. Предпочтительно, коррекция производной фазы выполняется в качестве начального регулирования для необработанных спектральных наложений, имеющих фазы

, и все дополнительные этапы BWE-обработки или регулирования (в SBR, они могут представлять собой добавление шума, обратную фильтрацию, пропущенные синусоиды и т.д.) выполняются на последующих стадиях для скорректированных фаз

.

Фиг. 55 показывает дополнительный вариант осуществления декодера 110''. Согласно этому варианту осуществления, декодер 110'' содержит базовый декодер 115, модуль 120 наложения, синтезатор 100 и блок A, который представляет собой декодер 110'' согласно предыдущим вариантам осуществления, показанный на фиг. 54. Базовый декодер 115 сконфигурирован с возможностью декодирования аудиосигнала 25 во временном кадре с сокращенным числом подполос частот относительно аудиосигнала 55. Модуль 120 наложения накладывает набор подполос частот базового декодированного аудиосигнала 25 с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал 32 с нормальным числом подполос частот. Процессор 125' амплитуд обрабатывает значения амплитуды подполосного аудиосигнала 355 во временном кадре. Согласно предыдущим декодерам 110 и 110', процессор амплитуд может представлять собой модуль 125 применения параметров расширения полосы пропускания.

Могут рассматриваться множество других вариантов осуществления, в которых блоки процессора сигналов переключаются. Например, процессор 125' амплитуд и блок A могут переставляться. Следовательно, блок A работает для восстановленного аудиосигнала 35, в котором значения амплитуды наложений уже скорректированы. Альтернативно, модуль 350 вычисления подполосных аудиосигналов может быть расположен после процессора 125' амплитуд, чтобы формировать скорректированный аудиосигнал 355 из части со скорректированной фазой и со скорректированной амплитудой аудиосигнала.

Кроме того, декодер 110'' содержит синтезатор 100 для синтезирования аудиосигнала со скорректированной амплитудой и фазой, чтобы получать частотно-комбинированный обработанный аудиосигнал 90. Необязательно, поскольку ни коррекция амплитуды, ни фазовая коррекция не применяются к базовому декодированному аудиосигналу 25, упомянутый аудиосигнал может передаваться непосредственно в синтезатор 100. Любой необязательный блок обработки, применяемый в одном из вышеописанных декодеров 110 или 110', также может применяться в декодере 110''.

Фиг. 56 показывает кодер 155'' для кодирования аудиосигнала 55. Кодер 155'' содержит модуль 380 определения фазы, соединенный с модулем 270 вычисления, базовым кодером 160, модулем 165 извлечения параметров и формирователем 170 выходных сигналов. Модуль 380 определения фазы определяет фазу 45 аудиосигнала 55, при этом модуль 270 вычисления определяет данные 295 фазовой коррекции для аудиосигнала 55 на основе определенной фазы 45 из аудиосигнала 55. Базовый кодер 160 подвергает базовому кодированию аудиосигнал 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала 55. Модуль 165 извлечения параметров извлекает параметры 190 из аудиосигнала 55 для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал. Формирователь 170 выходных сигналов формирует выходной сигнал 135, содержащий параметры 190, базовый кодированный аудиосигнал 145 и данные 295' фазовой коррекции. Необязательно, кодер 155'' содержит фильтр 180 нижних частот перед базовым кодированием аудиосигнала 55 и фильтр 185 верхних частот перед извлечением параметров 190 из аудиосигнала 55. Альтернативно, вместо фильтрации нижних или верхних частот аудиосигнала 55, может использоваться алгоритм заполнения интервалов отсутствия сигнала, в котором базовый кодер 160 подвергает базовому кодированию сокращенное число подполос частот, при этом, по меньшей мере, одна подполоса частот в наборе подполос частот не подвергнута базовому кодированию. Кроме того, модуль извлечения параметров извлекает параметры 190, по меньшей мере, из одной подполосы частот, не кодированной с помощью базового кодера 160.

Согласно вариантам осуществления, модуль 270 вычисления содержит набор модулей 285a-c вычисления корректирующих данных для коррекции фазовой коррекции в соответствии с режимом первого варьирования, режимом второго варьирования или режимом третьего варьирования. Кроме того, модуль 270 вычисления определяет активирующие данные 365 для активации одного модуля вычисления корректирующих данных из набора модулей 285a-c вычисления корректирующих данных. Формирователь 170 выходных сигналов формирует выходной сигнал, содержащий активирующие данные, параметры, базовый кодированный аудиосигнал и данные фазовой коррекции.

Фиг. 57 показывает альтернативную реализацию модуля 270 вычисления, который может использоваться в кодере 155'', показанном на фиг. 56. Модуль 385 вычисления режима коррекции содержит модуль 275 определения варьирования и модуль 280 сравнения варьирования. Активирующие данные 365 являются результатом сравнения различных варьирований. Кроме того, активирующие данные 365 активируют один из модулей 185a-c вычисления корректирующих данных согласно определенному варьированию. Вычисленные корректирующие данные 295a, 295b или 295c могут быть вводом формирователя 170 выходных сигналов кодера 155'' и, следовательно, частью выходного сигнала 135.

Варианты осуществления показывают модуль 270 вычисления, содержащий формирователь 390 метаданных, который формирует поток 295' метаданных, содержащий вычисленные корректирующие данные 295a, 295b или 295c и активирующие данные 365. Активирующие данные 365 могут передаваться в декодер, если непосредственно корректирующие данные не содержат достаточную информацию текущего режима коррекции. Достаточная информация, например, может быть числом битов, используемых для того, чтобы представлять корректирующие данные, которые отличаются для корректирующих данных 295a, корректирующих данных 295b и корректирующих данных 295c. Кроме того, формирователь 170 выходных сигналов дополнительно может использовать активирующие данные 365, так что формирователь 390 метаданных можно игнорироваться.

С другой точки зрения, блок-схема по фиг. 57 показывает стадию кодирования в алгоритме фазовой коррекции. Ввод в обработку представляет собой исходный аудиосигнал 55 и частотно-временную область. В практических вариантах применения, изобретаемая коррекция производной фазы является предпочтительной для того, чтобы совместно использовать гребенку фильтров или преобразование существующей BWE-схемы. В текущем примере, она представляет собой QMF-область, используемую в SBR.

Блок вычисления режима коррекции сначала вычисляет режим коррекции, который применяется для каждого временного кадра. На основе активирующих данных 365, вычисление корректирующих данных 295a-c активируется в правильном режиме коррекции (другие могут быть деактивированы). В завершение, мультиплексор (мультиплексор) комбинирует активирующие данные и корректирующие данные из различных режимов коррекции.

Дополнительный мультиплексор (не проиллюстрирован) объединяет корректирующие данные производной фазы в поток битов BWE и перцепционного кодера, который улучшается посредством изобретаемой коррекции.

Фиг. 58 показывает способ 5800 для декодирования аудиосигнала. Способ 5800 содержит этап 5805 "формирование целевого спектра для первого временного кадра подполосного сигнала для аудиосигнала с помощью генератора первого целевого спектра с использованием первых корректирующих данных", этап 5810 "коррекция фазы подполосного сигнала в первом временном кадре аудиосигнала с помощью первого фазового корректора, определенной с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала и целевым спектром и этап 5815 "вычисление подполосного аудиосигнала для первого временного кадра с помощью модуля вычисления подполосных аудиосигналов с использованием скорректированной фазы временного кадра и вычисление подполосных аудиосигналов для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции".

Фиг. 59 показывает способ 5900 для кодирования аудиосигнала. Способ 5900 содержит этап 5905 "определение фазы аудиосигнала с помощью модуля определения фазы", этап 5910 "определение данных фазовой коррекции для аудиосигнала с помощью модуля вычисления на основе определенной фазы аудиосигнала", этап 5915 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этап 5920 "извлечение параметров из аудиосигнала с помощью модуля извлечения параметров для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал" и этап 5925 "формирование выходного сигнала с помощью формирователя выходных сигналов, содержащего параметры, базовый кодированный аудиосигнал и данные фазовой коррекции".

Способы 5800 и 5900, а также вышеописанные способы 2300, 2400, 2500, 3400, 3500, 3600 и 4200, могут реализовываться в компьютерной программе, которая должна выполняться на компьютере.

Следует отметить, что аудиосигнал 55 используется в качестве общего термина для аудиосигнала, в частности, для исходного, т.е. необработанного аудиосигнала, передаваемой части аудиосигнала

25, сигнала

30 основной полосы частот, обработанного аудиосигнала 32, содержащего более высокие частоты 32 по сравнению с исходным аудиосигналом, восстановленного аудиосигнала 35, частотного наложения

40 со скорректированной амплитудой, фазы 45 аудиосигнала или амплитуды 47 аудиосигнала. Следовательно, различные аудиосигналы могут быть взаимозаменяемыми вследствие контекста варианта осуществления.

Альтернативные варианты осуществления относятся к другой гребенке фильтров или областям преобразования, используемым для изобретаемой частотно-временной обработки, например, к области кратковременного преобразования Фурье (STFT) комплексного модифицированного дискретного косинусного преобразования (CMDCT) или дискретного преобразования Фурье (DFT). Следовательно, могут учитываться конкретные фазовые свойства, связанные с преобразованием. Подробно, если, например, коэффициенты перезаписи копируются из четного числа в нечетное число или наоборот, т.е. вторая подполоса частот исходного аудиосигнала копируется в девятую подполосу частот вместо восьмой подполосы частот, как описано в вариантах осуществления, комплексно-сопряженное число наложения может использоваться для обработки. То же применимо к зеркалированию наложений вместо использования, например, алгоритма перезаписи, чтобы преодолевать обратный порядок фазовых углов в наложении.

Другие варианты осуществления могут отказываться от вспомогательной информации из кодера и оценивать часть или все необходимые параметры коррекции в узле декодера. Дополнительные варианты осуществления могут иметь другие базовые схемы BWE-наложения, которые, например, используют различные части в основной полосе частот, различное число или размер наложений или различные технологии транспозиции, например, спектральное зеркалирование или модуляция с одной боковой полосой частот (SSB). Также могут существовать варьирования, в которых конкретно фазовая коррекция организована в последовательность сигналов для BWE-синтеза. Кроме того, сглаживание выполняется с использованием скользящей взвешивающей функции Ханна, которая может быть заменена для лучшей эффективности вычислений, например, посредством IIR первого порядка.

Использование перцепционных аудиокодеков предшествующего уровня техники зачастую нарушает фазовую когерентность спектральных компонентов аудиосигнала, в частности, на низких скоростях передачи битов, на которых применяются технологии параметрического кодирования, такие как расширение полосы пропускания. Это приводит к изменению производной фазы аудиосигнала. Тем не менее, в определенных типах сигналов, сохранение производной фазы является важным. Как результат, перцепционное качество таких звуков нарушается. Настоящее изобретение повторно регулирует производную фазы либо по частоте ("вертикальную"), либо по времени ("горизонтальную") таких сигналов, если восстановление производной фазы является перцепционно полезным. Дополнительно, принимается решение в отношении того, регулирование вертикальной или горизонтальной производной фазы является перцепционно предпочтительным. Передача только очень компактной вспомогательной информации требуется для того, чтобы управлять обработкой коррекции производной фазы. Следовательно, изобретение повышает качество звука перцепционных аудиокодеров при небольших затратах в отношении вспомогательной информации.

Другими словами, репликация полос спектра (SBR) может вызывать ошибки в фазовом спектре. Человеческое восприятие этих ошибок изучено с раскрытием двух перцепционно значительных эффектов: разности в частотах и временных позициях гармоник. Обнаруживается, что ошибки по частоте являются воспринимаемыми только тогда, когда основная частота является достаточно высокой, так что существует только одна гармоника в ERB-полосе частот. Соответственно, обнаруживается, что ошибки временной позиции являются воспринимаемыми только в том случае, если основная частота является низкой, и если фазы гармоник совмещаются по частоте.

Ошибки по частоте могут обнаруживаться посредством вычисления производной фазы по времени (PDT). Если PDT-значения являются стабильными во времени, разности в них между SBR-обработанным и исходным сигналами должны корректироваться. Это эффективно корректирует частоты гармоник, и за счет этого исключается восприятие негармоничности.

Ошибки временной позиции могут обнаруживаться посредством вычисления производной фазы по частоте (PDF). Если PDF-значения являются стабильными по частоте, разности в них между SBR-обработанным и исходным сигналами должны корректироваться. Это эффективно корректирует временные позиции гармоник, и за счет этого исключается восприятие модуляции шумов на частотах разделения.

Хотя настоящее изобретение описано в контексте блок-схем, на которых блоки представляют фактические или логические аппаратные компоненты, настоящее изобретение также может реализовываться посредством машинореализованного способа. Во втором случае, блоки представляют соответствующие этапы способа, причем эти этапы означают функциональности, выполняемые посредством соответствующих логических или физических аппаратных блоков.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

Изобретаемый передаваемый кодированный сигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код сконфигурирован с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель хранения данных (или энергонезависимый носитель хранения данных, такой как цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть сконфигурирована с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

[1] Painter, T.: Spanias, A. "Perceptual coding of digital audio", Proceedings of the IEEE, 88(4), 2000 год; стр. 451-513.

[2] Larsen, E.; Aarts, R. "Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design", John Wiley and Sons Ltd, 2004 год, главы 5, 6.

[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, O. "Spectral Band Replication, the Novel Approach in Audio Coding", 112th AES Convention, апрель 2002 года, Preprint 5553.

[4] Nagel, F.; Disch, S.; Rettelbach, N. "The Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs", 126th AES Convention, 2009 год.

[5] D. Griesinger "The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources", Tonmeister Tagung, 2010 год.

[6] D. Dorran и R. Lawlor, "Time-scale modification of music using the synchronized subband/time domain approach", IEEE International Conference on Acoustics, Speech and Signal Processing, стр. IV 225 - IV 228, Монреаль, май 2004 года.

[7] J. Laroche, "Frequency-domain techniques for high quality voice modification", Proceedings of the International Conference on Digital Audio Effects, стр. 328-322, 2003.

[8] Laroche, J.; Dolson, M. "Phase-vocoder: about this phasiness business", Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, издание, номер, стр. 4, стр. 19-22, октябрь 1997 года

[9] M. Dietz, L. Liljeryd, K. Kjörling и O. Kunz "Spectral band replication, the novel approach in audio coding", in AES 112th Convention, (Мюнхен, Германия), май 2002 года.

[10] P. Ekstrand "Bandwidth extension of audio signals by spectral band replication", in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Левен, Бельгия), ноябрь 2002 года.

[11] B. C. J. Moore и B. R. Glasberg "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. Soc. Am., издание 74, стр. 750-753, сентябрь 1983 года.

[12] T. M. Shackleton и R. P. Carlyon "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination", J. Acoust. Soc. Am., издание 95, стр. 3529-3540, июнь 1994 года.

[13] M.-V. Laitinen, S. Disch и V. Pulkki "Sensitivity of human hearing to changes in phase spectrum", J. Audio Eng. Soc., издание 61, стр. 860-877, ноябрь 2013 года.

[14] A. Klapuri "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE Transactions on Speech and Audio Processing, издание 11, ноябрь 2003 года.

Claims

1. Модуль (270) вычисления для определения данных (295) фазовой коррекции для аудиосигнала (55), причем модуль вычисления содержит:

- модуль (275) определения варьирования для определения варьирования фазы аудиосигнала (55) в режиме первого варьирования и режиме второго варьирования;

- модуль (280) сравнения варьирования для сравнения первого варьирования (290a), определенного с использованием режима первого варьирования, и второго варьирования (290b), определенного с использованием режима второго варьирования; и

- модуль (285) вычисления корректирующих данных для вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.

2. Модуль (270) вычисления по п. 1,

- в котором модуль (275) определения варьирования выполнен с возможностью определения показателя среднеквадратического отклонения производной фазы (305a) по времени (PDT) для множества временных кадров аудиосигнала (55) в качестве варьирования (290a) фазы в режиме первого варьирования;

- при этом модуль (275) определения варьирования выполнен с возможностью определения показателя среднеквадратического отклонения производной фазы (205b) по частоте (PDF) для множества подполос частот аудиосигнала (55) в качестве варьирования (290b) фазы в режиме второго варьирования; и

- при этом модуль (280) сравнения варьирования выполнен с возможностью сравнения показателя производной фазы (205a) по времени в качестве первого варьирования (290a) и показателя производной фазы (305b) по частоте в качестве второго варьирования (290b) для временных кадров аудиосигнала.

3. Модуль (270) вычисления по п. 1,

- в котором модуль (275) определения варьирования выполнен с возможностью определения кругового среднеквадратического отклонения (351a) производной фазы по времени текущего и множества предыдущих кадров аудиосигнала (55) в качестве показателя среднеквадратического отклонения и определения кругового среднеквадратического отклонения (351b) производной фазы по времени текущего и множества будущих кадров аудиосигнала (55) для текущего временного кадра в качестве дополнительного показателя среднеквадратического отклонения;

- при этом модуль (275) определения варьирования выполнен с возможностью вычисления, при определении первого варьирования (290a), минимума (325) из упомянутого показателя среднеквадратического отклонения и упомянутого дополнительного показателя среднеквадратического отклонения.

4. Модуль (270) вычисления по п. 2,

- в котором модуль (275) определения варьирования выполнен с возможностью вычисления варьирования (290a) в режиме первого варьирования в качестве комбинации показателей среднеквадратического отклонения для множества подполос (95) частот во временном кадре (75), чтобы формировать показатель (335a) усредненного среднеквадратического отклонения по частоте; и

- при этом модуль (280) сравнения варьирования выполнен с возможностью выполнения комбинации показателей среднеквадратического отклонения посредством вычисления среднего значения с энергетическим взвешиванием показателей среднеквадратического отклонения множества подполос частот с использованием значений амплитуды подполосного сигнала (95) в текущем временном кадре (75) в качестве показателя энергии.

5. Модуль (270) вычисления по п. 1,

- в котором модуль (275) определения варьирования выполнен с возможностью сглаживания показателя усредненного среднеквадратического отклонения, при определении первого варьирования (290a), по текущему, множеству предыдущих и множеству будущих временных кадров, при этом сглаживание (345a) взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров, и первой функции кодирования со взвешиванием;

- при этом модуль (275) определения варьирования выполнен с возможностью сглаживания показателя среднеквадратического отклонения, при определении второго варьирования (290b) по текущему, множеству предыдущих и множеству будущих временных кадров (75), при этом сглаживание (345b) взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров (75), и второй функции кодирования со взвешиванием; и

- при этом модуль (280) сравнения варьирования выполнен с возможностью сравнения показателя (345a) сглаженного усредненного среднеквадратического отклонения в качестве первого варьирования (290a), определенного с использованием режима первого варьирования, и сравнения показателя (345b) сглаженного среднеквадратического отклонения в качестве второго варьирования (290b), определенного с использованием режима второго варьирования.

6. Модуль (270) вычисления по п. 1, содержащий:

- модуль (275) определения варьирования, выполненный с возможностью определения третьего варьирования (290c) фазы аудиосигнала (55) в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей;

- модуль (280) сравнения варьирования для сравнения первого варьирования (290a), определенного с использованием режима первого варьирования, второго варьирования (290b), определенного с использованием режима второго варьирования, и третьего варьирования (290c), определенного с использованием режима третьего варьирования; и

- модуль (285) вычисления корректирующих данных для вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования, режимом второго варьирования или режимом третьего варьирования на основе результата сравнения.

7. Модуль (270) вычисления по п. 6,

- в котором модуль (280) сравнения варьирования выполнен с возможностью вычисления мгновенной энергетической оценки текущего временного кадра и усредненной во времени энергетической оценки по множеству временных кадров (75) при вычислении варьирования (290c) в режиме третьего варьирования; и

- при этом модуль (280) сравнения варьирования выполнен с возможностью вычисления отношения мгновенной энергетической оценки и усредненной во времени энергетической оценки и выполнен с возможностью сравнения отношения с заданным пороговым значением, чтобы обнаруживать переходные части во временном кадре (75).

8. Модуль (270) вычисления по п. 1,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом третьего варьирования, если обнаруживается переходная часть.

9. Модуль вычисления по п. 1,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции для третьего варьирования (290c) для текущего, одного или более предыдущих и одного или более будущих временных кадров.

10. Модуль (270) вычисления по п. 1,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования, если отсутствие переходной части обнаруживается, и если первое варьирование (290a), определенное в режиме первого варьирования, меньше или равно второму варьированию (290b), определенному в режиме второго варьирования.

11. Модуль (270) вычисления по п. 1,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом второго варьирования, если отсутствие переходной части обнаруживается, и если второе варьирование (299b), определенное в режиме второго варьирования, меньше первого варьирования (290a), определенного в режиме первого варьирования.

12. Модуль (270) вычисления по п. 11,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции для второго варьирования (290b) для текущего, одного или более предыдущих и одного или более будущих временных кадров.

13. Модуль вычисления по п. 1,

- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления корректирующих данных (295) для горизонтальной фазовой коррекции в режиме первого варьирования, вычисления корректирующих данных (295) для вертикальной фазовой коррекции в режиме второго варьирования и вычисления корректирующих данных (295) для коррекции переходных частей в режиме третьего варьирования.

14. Способ (4100) для определения данных (295) фазовой коррекции для аудиосигнала с помощью модуля (270) вычисления, при этом способ содержит этапы, на которых:

- определяют варьирование фазы аудиосигнала (55) в режиме первого варьирования и режиме второго варьирования;

- сравнивают варьирование, определенное с использованием режима первого варьирования и режима второго варьирования; и

- вычисляют данные (295) фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.

15. Машиночитаемый запоминающий носитель, содержащий сохраненную на нем компьютерную программу, содержащую программный код для осуществления способа по п. 14, когда компьютерная программа исполняется на компьютере.