RU2676899C2 - Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала - Google Patents

Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала Download PDF

Info

Publication number
RU2676899C2
RU2676899C2 RU2017103101A RU2017103101A RU2676899C2 RU 2676899 C2 RU2676899 C2 RU 2676899C2 RU 2017103101 A RU2017103101 A RU 2017103101A RU 2017103101 A RU2017103101 A RU 2017103101A RU 2676899 C2 RU2676899 C2 RU 2676899C2
Authority
RU
Russia
Prior art keywords
phase
variation
frequency
audio signal
module
Prior art date
Application number
RU2017103101A
Other languages
English (en)
Other versions
RU2017103101A3 (ru
RU2017103101A (ru
Inventor
Саша ДИШ
Микко-Вилле ЛАЙТИНЕН
Вилле ПУЛККИ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2017103101A3 publication Critical patent/RU2017103101A3/ru
Publication of RU2017103101A publication Critical patent/RU2017103101A/ru
Application granted granted Critical
Publication of RU2676899C2 publication Critical patent/RU2676899C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Amplifiers (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Television Receiver Circuits (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

Изобретение относится к обработке аудиосигнала. Технический результат - повышение качества аудиосигнала. Модуль вычисления для определения данных фазовой коррекции для аудиосигнала содержит модуль определения варьирования для определения варьирования фазы аудиосигнала в режиме первого и второго варьирования, модуль сравнения варьирования для сравнения первого варьирования, определенного с использованием режима первого варьирования, и второго варьирования, определенного с использованием режима второго варьирования, и модуль вычисления корректирующих данных для вычисления данных фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения. 3 н. и 12 з.п. ф-лы, 59 ил.

Description

Подробное описание изобретения
Настоящее изобретение относится к аудиопроцессору и способу для обработки аудиосигнала, к декодеру и способу для декодирования аудиосигнала и к кодеру и способу для кодирования аудиосигнала. Кроме того, описываются модуль вычисления и способ для определения данных фазовой коррекции, аудиосигнал и компьютерная программа для осуществления одного из вышеуказанных способов. Другими словами, настоящее изобретение показывает коррекцию производной фазы и расширение полосы пропускания (BWE) для перцепционных аудиокодеков либо коррекцию фазового спектра сигналов с расширенной полосой пропускания в QMF-области на основе перцепционной важности.
Перцепционное кодирование аудио
Перцепционное кодирование аудио, рассматриваемое на сегодняшний день, придерживается нескольких общих тем, включающих в себя использование обработки в частотно-временной области, уменьшения избыточности (энтропийного кодирования) и удаления нерелевантности через объявленное применение перцепционных эффектов [1]. Типично, входной сигнал анализируется посредством гребенки аналитических фильтров, которая преобразует сигнал временной области в спектральное (частотно-временное) представление. Преобразование в спектральные коэффициенты предоставляет возможность избирательной обработки компонентов сигнала в зависимости от их частотного спектра (например, различных инструментов с их отдельными структурами обертона).
Параллельно, входной сигнал анализируется относительно своих перцепционных свойств, т.е., в частности, вычисляется время- и частотно-зависимое пороговое значение маскирования. Время/частотно-зависимое пороговое значение маскирования доставляется в модуль квантования через целевое пороговое значение кодирования в форме абсолютного значения энергии или отношения "маска-сигнал" (MSR) для каждой полосы частот и временного кадра кодирования.
Спектральные коэффициенты, доставляемые посредством гребенки аналитических фильтров, квантуются, чтобы уменьшать скорость передачи данных, необходимую для представления сигнала. Этот этап подразумевает потери информации и вводит искажение (ошибку, шум) при кодировании в сигнал. Чтобы минимизировать слышимое влияние этого шума кодирования, размеры шага квантователя управляются согласно целевым пороговым значениям кодирования для каждой полосы частот и кадра. В идеале, шум кодирования, введенный в каждую полосу частот, ниже порогового значения кодирования (маскирования), и в силу этого ухудшение качества субъективного аудио не является воспринимаемым (удаление нерелевантности). Это управление шумом квантования по частоте и по времени согласно психоакустическим требованиям приводит к сложному эффекту формирования шума и представляет собой то, что делает кодер перцепционным аудиокодером.
Затем, современные аудиокодеры выполняют энтропийное кодирование (например, кодирование Хаффмана, арифметическое кодирование) для квантованных спектральных данных. Энтропийное кодирование представляет собой этап кодирования без потерь, который дополнительно снижает скорость передачи битов.
В завершение, все кодированные спектральные данные и релевантные дополнительные параметры (вспомогательная информация, как, например, настройки квантователя для каждой полосы частот) пакетируются в поток битов, который является конечным кодированным представлением, предназначенным для хранения или передачи файлов.
Расширение полосы пропускания
В перцепционном кодировании аудио на основе гребенок фильтров, основная часть используемой скорости передачи битов обычно расходуется на квантованные спектральные коэффициенты. Таким образом, на очень низких скоростях передачи битов, недостаточно битов может быть доступно для того, чтобы представлять все коэффициенты с точностью, требуемой для того, чтобы достигать перцепционно ненарушенного воспроизведения. В силу этого, низкие требования по скорости передачи битов эффективно задают предел на полосу пропускания аудиосигнала, которая может получаться посредством перцепционного кодирования аудио. Расширение полосы пропускания [2] исключает это долгосрочное фундаментальное ограничение. Центральная идея расширения полосы пропускания состоит в том, чтобы дополнять перцепционный кодек с ограниченной полосой частот посредством дополнительного высокочастотного процессора, который передает и восстанавливает пропущенный высокочастотный контент в компактной параметрической форме. Высокочастотный контент может формироваться на основе модуляции с одной боковой полосой частот сигнала основной полосы частот, на основе технологий перезаписи, к примеру, используемых в репликации полос спектра (SBR) [3], или на основе применения технологий сдвига основного тона, таких как, например, вокодер [4].
Цифровые звуковые эффекты
Эффекты растягивания во времени или сдвига основного тона обычно получаются посредством применения технологий во временной области, таких как синхронизированное суммирование с перекрытием (SOLA), или технологий в частотной области (вокодер). Кроме того, предложены гибридные системы, которые применяют SOLA-обработку в подполосах частот. Вокодеры и гибридные системы обычно подвержены артефакту, называемому фазовостью [8], который может быть приписан потерям вертикальной фазовой когерентности. Некоторые публикации относятся к повышению качества звука алгоритмов растягивания во времени посредством сохранения вертикальной фазовой когерентности, когда это важно [6][7].
Аудиокодеры предшествующего уровня техники [1] обычно ухудшают перцепционное качество аудиосигналов посредством игнорирования важных фазовых свойств сигнала, который должен кодироваться. Общий план по коррекции фазовой когерентности в перцепционных аудиокодерах представлен в [9].
Тем не менее, не все виды ошибок фазовой когерентности могут корректироваться одновременно, и не все ошибки фазовой когерентности являются перцепционно важными. Например, при расширении полосы пропускания аудиосигнала, из предшествующего уровня техники непонятно, какие связанные с фазовой когерентностью ошибки должны корректироваться с наивысшим приоритетом, а какие ошибки могут оставаться только частично скорректированными или, относительно их незначительного перцепционного влияния, полностью игнорироваться.
В частности, вследствие применения расширения полосы пропускания аудиосигнала [2] [3] [4], фазовая когерентность по частоте и по времени зачастую нарушается. Результат представляет собой глухой звук, который демонстрирует слуховую нечеткость и может содержать дополнительно воспринимаемые тона, которые дезинтегрируются из слуховых объектов в исходном сигнале и, следовательно, воспринимаются как самостоятельный слуховой объект, помимо исходного сигнала. Кроме того, также может обнаруживаться то, что звук исходит с большого расстояния, при этом он является менее "шумным" и в силу этого вызывает небольшое вовлечение слушателя [5].
Следовательно, существует потребность в усовершенствованном подходе.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для обработки аудиосигнала. Эта цель разрешается посредством предмета независимых пунктов формулы изобретения.
Настоящее изобретение основано на таких выявленных сведениях, что фаза аудиосигнала может корректироваться согласно целевой фазе, вычисленной посредством аудиопроцессора или декодера. Целевая фаза может рассматриваться в качестве представления фазы необработанного аудиосигнала. Следовательно, фаза обработанного аудиосигнала регулируется с возможностью лучше соответствовать фазе необработанного аудиосигнала. В случае, например, частотно-временного представления аудиосигнала, фаза аудиосигнала может регулироваться для последующих временных кадров в подполосе частот, или фаза может регулироваться во временном кадре для последующих подполос частот. Следовательно, выявлено, что модуль вычисления автоматически обнаруживает и выбирает наиболее подходящий способ коррекции. Описанные выявленные сведения могут реализовываться в различных вариантах осуществления или совместно реализовываться в декодере и/или кодере.
Варианты осуществления показывают аудиопроцессор для обработки аудиосигнала, содержащий модуль вычисления фазовых показателей аудиосигнала, сконфигурированный с возможностью вычисления фазового показателя аудиосигнала для временного кадра. Кроме того, аудиосигнал содержит модуль определения целевых фазовых показателей для определения целевого фазового показателя для упомянутого временного кадра, и фазовый корректор, сконфигурированный с возможностью коррекции фаз аудиосигнала для временного кадра с использованием вычисленного фазового показателя и целевого фазового показателя, с тем чтобы получать обработанный аудиосигнал.
Согласно дополнительным вариантам осуществления, аудиосигнал может содержать множество подполосных сигналов для временного кадра. Модуль определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя для первого подполосного сигнала и второго целевого фазового показателя для второго подполосного сигнала. Кроме того, модуль вычисления фазовых показателей аудиосигнала определяет первый фазовый показатель для первого подполосного сигнала и второй фазовый показатель для второго подполосного сигнала. Фазовый корректор сконфигурирован с возможностью коррекции первой фазы первого подполосного сигнала с использованием первого фазового показателя аудиосигнала и первого целевого фазового показателя и коррекции второй фазы второго подполосного сигнала с использованием второго фазового показателя аудиосигнала и второго целевого фазового показателя. Следовательно, аудиопроцессор может содержать синтезатор аудиосигналов для синтезирования скорректированного аудиосигнала с использованием скорректированного первого подполосного сигнала и скорректированного второго подполосного сигнала.
В соответствии с настоящим изобретением, аудиопроцессор сконфигурирован с возможностью коррекции фазы аудиосигнала в горизонтальном направлении, т.е. коррекции во времени. Следовательно, аудиосигнал может подразделяться на набор временных кадров, при этом фаза каждого временного кадра может регулироваться согласно целевой фазе. Целевая фаза может быть представлением исходного аудиосигнала, при этом аудиопроцессор может быть частью декодера для декодирования аудиосигнала, который является кодированным представлением исходного аудиосигнала. Необязательно, горизонтальная фазовая коррекция может применяться отдельно для определенного числа подполос частот аудиосигнала, если аудиосигнал доступен в частотно-временном представлении. Коррекция фазы аудиосигнала может выполняться посредством вычитания отклонения производной фазы по времени целевой фазы и фазы аудиосигнала из фазы аудиосигнала.
Следовательно, поскольку производная фазы по времени является частотой (
Figure 00000001
, где
Figure 00000002
является фазой), описанная фазовая коррекция выполняет частотное регулирование для каждой подполосы частот аудиосигнала. Другими словами, разность каждой подполосы частот аудиосигнала с целевой частотой может уменьшаться, чтобы получать лучшее качество для аудиосигнала.
Чтобы определять целевую фазу, модуль определения целевой фазы сконфигурирован с возможностью получения оценки основной частоты для текущего временного кадра и вычисления оценки частоты для каждой подполосы частот из множества подполос частот временного кадра с использованием оценки основной частоты для временного кадра. Оценка частоты может преобразовываться в производную фазы по времени с использованием общего числа подполос частот и частоты дискретизации аудиосигнала. В дополнительном варианте осуществления, аудиопроцессор содержит модуль определения целевых фазовых показателей для определения целевого фазового показателя для аудиосигнала во временном кадре, модуль вычисления фазовых ошибок для вычисления фазовой ошибки с использованием фазы аудиосигнала и временного кадра целевого фазового показателя, и фазовый корректор, сконфигурированный с возможностью коррекции фазы аудиосигнала и временного кадра с использованием фазовой ошибки.
Согласно дополнительным вариантам осуществления, аудиосигнал доступен в частотно-временном представлении, при этом аудиосигнал содержит множество подполос частот для временного кадра. Модуль определения целевых фазовых показателей определяет первый целевой фазовый показатель для первого подполосного сигнала и второй целевой фазовый показатель для второго подполосного сигнала. Кроме того, модуль вычисления фазовых ошибок формирует вектор фазовых ошибок, при этом первый элемент вектора относится к первому отклонению фазы первого подполосного сигнала и первому целевому фазовому показателю, и при этом второй элемент вектора относится к второму отклонению фазы второго подполосного сигнала и второму целевому фазовому показателю. Дополнительно, аудиопроцессор этого варианта осуществления содержит синтезатор аудиосигналов для синтезирования скорректированного аудиосигнала с использованием скорректированного первого подполосного сигнала и скорректированного второго подполосного сигнала. Эта фазовая коррекция формирует значения скорректированной фазы в среднем.
Дополнительно или альтернативно, множество подполос частот группируется в основную полосу частот и набор частотных наложений, при этом основная полоса частот содержит одну подполосу частот аудиосигнала, и набор частотных наложений содержит, по меньшей мере, одну подполосу частот основной полосы частот на частоте, превышающей частоту, по меньшей мере, одной подполосы частот в основной полосе частот.
Дополнительные варианты осуществления показывают модуль вычисления фазовых ошибок, сконфигурированный с возможностью вычисления среднего значения элементов вектора фазовых ошибок, относящегося к первому наложению второго числа частотных наложений, чтобы получать среднюю фазовую ошибку. Фазовый корректор сконфигурирован с возможностью коррекции фазы подполосного сигнала в первом и последующих частотных наложениях набора частотных наложений сигнала наложения с использованием средневзвешенной фазовой ошибки, при этом средняя фазовая ошибка разделяется согласно индексу частотного наложения, с тем чтобы получать модифицированный сигнал наложения. Эта фазовая коррекция предоставляет хорошее качество на частотах разделения, которые являются граничными частотами между двумя последующими частотными наложениями.
Согласно дополнительному варианту осуществления, два вышеописанных варианта осуществления могут комбинироваться, чтобы получать скорректированный аудиосигнал, содержащий значения с фазовой коррекцией, которые являются хорошими в среднем и на частотах разделения. Следовательно, модуль вычисления производных фазы аудиосигнала сконфигурирован с возможностью вычисления среднего значения производных фазы по частоте для основной полосы частот. Фазовый корректор вычисляет дополнительный модифицированный сигнал наложения с оптимизированным первым частотным наложением посредством суммирования среднего значения производных фазы по частоте, взвешенных посредством текущего индекса подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в основной полосе частот аудиосигнала. Кроме того, фазовый корректор может быть сконфигурирован с возможностью вычисления взвешенного среднего модифицированного сигнала наложения и дополнительного модифицированного сигнала наложения, с тем чтобы получать комбинированный модифицированный сигнал наложения и рекурсивного обновления, на основе частотных наложений, комбинированного модифицированного сигнала наложения посредством суммирования среднего значения производных фазы по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении комбинированного модифицированного сигнала наложения.
Чтобы определять целевую фазу, модуль определения целевых фазовых показателей может содержать модуль извлечения потоков данных, сконфигурированный с возможностью извлечения позиции пика и основной частоты позиций пиков в текущем временном кадре аудиосигнала из потока данных. Альтернативно, модуль определения целевых фазовых показателей может содержать анализатор аудиосигналов, сконфигурированный с возможностью анализа текущего временного кадра, чтобы вычислять позицию пика и основную частоту позиций пиков в текущем временном кадре. Кроме того, модуль определения целевых фазовых показателей содержит генератор целевого спектра для оценки дополнительных позиций пиков в текущем временном кадре с использованием позиции пика и основной частоты позиций пиков. Подробно, генератор целевого спектра может содержать детектор пиков для формирования последовательности импульсов времени, формирователь сигналов, чтобы регулировать частоту последовательности импульсов согласно основной частоте позиций пиков, модуль позиционирования импульсов, чтобы регулировать фазу последовательности импульсов согласно позиции, и анализатор спектра, чтобы формировать фазовый спектр отрегулированной последовательности импульсов, при этом фазовый спектр сигнала временной области является целевым фазовым показателем. Описанный вариант осуществления модуля определения целевых фазовых показателей является преимущественным для формирования целевого спектра для аудиосигнала, имеющего форму сигнала с пиками.
Варианты осуществления второго аудиопроцессора описывают вертикальную фазовую коррекцию. Вертикальная фазовая коррекция регулирует фазу аудиосигнала в одном временном кадре по всем подполосам частот. Регулирование фазы аудиосигнала, применяемое независимо для каждой подполосы частот, приводит в результате, после синтезирования подполос частот аудиосигнала, к форме сигнала для аудиосигнала, отличающейся от нескорректированного аудиосигнала. Следовательно, например, можно восстанавливать исходную форму размытого пика или переходной части (транзиента).
Согласно дополнительному варианту осуществления, показан модуль вычисления для определения данных фазовой коррекции для аудиосигнала с модулем определения варьирования для определения варьирования фазы аудиосигнала в режиме первого и второго варьирования, модулем сравнения варьирования для сравнения первого варьирования, определенного с использованием режима фазового варьирования, и второго варьирования, определенного с использованием режима второго варьирования, и модулем вычисления корректирующих данных для вычисления фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.
Дополнительный вариант осуществления показывает модуль определения варьирования для определения показателя среднеквадратического отклонения производной фазы по времени (PDT) для множества временных кадров аудиосигнала в качестве варьирования фазы в режиме первого варьирования или показателя среднеквадратического отклонения производной фазы по частоте (PDF) для множества подполос частот в качестве варьирования фазы в режиме второго варьирования. Модуль сравнения варьирования сравнивает показатель производной фазы по времени в качестве режима первого варьирования и показатель производной фазы по частоте в качестве режима второго варьирования для временных кадров аудиосигнала. Согласно дополнительному варианту осуществления, модуль определения варьирования сконфигурирован с возможностью определения варьирования фазы аудиосигнала в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей. Следовательно, модуль сравнения варьирования сравнивает три режима варьирования, и модуль вычисления корректирующих данных вычисляет фазовую коррекцию в соответствии с режимом первого варьирования, режимом второго варьирования или третьего варьирования на основе результата сравнения.
Правила принятия решения модуля вычисления корректирующих данных могут описываться следующим образом. Если обнаруживается переходная часть, фаза корректируется согласно фазовой коррекции для переходных частей, чтобы восстанавливать форму переходной части. В противном случае, если первое варьирование меньше или равно второму варьированию, применяется фазовая коррекция режима первого варьирования, либо если второе варьирование превышает первое варьирование, применяется фазовая коррекция в соответствии с режимом второго варьирования. Если обнаруживается отсутствие переходной части, и если как первое, так и второе варьирование превышают пороговое значение, не применяется ни один из режимов фазовой коррекции.
Модуль вычисления может быть сконфигурирован с возможностью анализа аудиосигнала, например, на стадии кодирования аудио, чтобы определять наилучший режим фазовой коррекции и вычислять релевантные параметры для определенного режима фазовой коррекции. На стадии декодирования, параметры могут использоваться для того, чтобы получать декодированный аудиосигнал, который имеет лучшее качество по сравнению с аудиосигналами, декодированными с использованием кодеков предшествующего уровня техники. Следует отметить, что модуль вычисления автономно обнаруживает правильный режим коррекции для каждого временного кадра аудиосигнала.
Варианты осуществления показывают декодер для декодирования аудиосигнала с генератором первого целевого спектра для формирования целевого спектра для первого временного кадра второго сигнала для аудиосигнала с использованием первых корректирующих данных и первым фазовым корректором для коррекции фазы подполосного сигнала в первом временном кадре аудиосигнала, определенной с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала и целевым спектром. Дополнительно, декодер содержит модуль вычисления подполосных аудиосигналов для вычисления подполосного аудиосигнала для первого временного кадра с использованием скорректированной фазы для временного кадра и вычисления подполосного аудиосигнала для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции.
Согласно дополнительным вариантам осуществления, декодер содержит генератор второго и третьего целевого спектра, эквивалентный генератору первого целевого спектра, и второй и третий фазовый корректор, эквивалентный первому фазовому корректору. Следовательно, первый фазовый корректор может выполнять горизонтальную фазовую коррекцию, второй фазовый корректор может выполнять вертикальную фазовую коррекцию, и третий фазовый корректор может выполнять фазовую коррекцию переходных частей. Согласно дополнительному варианту осуществления, декодер содержит базовый декодер, сконфигурированный с возможностью декодирования аудиосигнала во временном кадре с сокращенным числом подполос частот относительно аудиосигнала. Кроме того, декодер может содержать модуль наложения для наложения набора подполос частот базового декодированного аудиосигнала с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал с нормальным числом подполос частот. Кроме того, декодер может содержать процессор амплитуд для обработки значений амплитуды подполосного аудиосигнала во временном кадре и синтезатор аудиосигналов для синтезирования подполосных аудиосигналов или амплитуды обработанных подполосных аудиосигналов, с тем чтобы получать синтезированный декодированный аудиосигнал. Этот вариант осуществления может устанавливать декодер для расширения полосы пропускания, содержащего фазовую коррекцию декодированного аудиосигнала.
Соответственно, кодер для кодирования аудиосигнала, содержащий модуль определения фазы для определения фазы аудиосигнала, модуль вычисления для определения данных фазовой коррекции для аудиосигнала на основе определенной фазы аудиосигнала, базовый кодер, сконфигурированный с возможностью базового кодирования аудиосигнала, чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала, и модуль извлечения параметров, сконфигурированный с возможностью извлечения параметров аудиосигнала для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал, и формирователь аудиосигналов для формирования выходного сигнала, содержащего параметры, базовый кодированный аудиосигнал и данные фазовой коррекции, может формировать кодер для расширения полосы пропускания.
Все вышеописанные варианты осуществления могут рассматриваться в совокупности или в комбинации, например, в кодере и/или декодере для расширения полосы пропускания с фазовой коррекцией декодированного аудиосигнала. Альтернативно, также можно рассматривать все описанные варианты осуществления независимо безотносительно друг друга.
Ниже поясняются варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1a показывает амплитудный спектр сигнала скрипки в частотно-временном представлении;
Фиг. 1b показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 1a;
Фиг. 1c показывает амплитудный спектр сигнала тромбона в QMF-области в частотно-временном представлении;
Фиг. 1d показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 1c;
Фиг. 2 показывает частотно-временную диаграмму, содержащую частотно-временные мозаичные фрагменты (например, QMF-элементы выборки, элементы выборки гребенки квадратурных зеркальных фильтров), заданные посредством временного кадра и подполосы частот;
Фиг. 3a показывает примерную частотную диаграмму аудиосигнала, при этом амплитуда частоты проиллюстрирована для десяти различных подполос частот;
Фиг. 3b показывает примерное частотное представление аудиосигнала после приема, например, в ходе процесса декодирования на промежуточном этапе;
Фиг. 3c показывает примерное частотное представление восстановленного аудиосигнала
Figure 00000003
;
Фиг. 4a показывает амплитудный спектр сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 4b показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 4a;
Фиг. 4c показывает амплитудный спектр сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 4d показывает фазовый спектр, соответствующий амплитудному спектру по фиг. 4c;
Фиг. 5 показывает представление во временной области одного QMF-элемента выборки с различными значениями фазы;
Фиг. 6 показывает представление во временной области и в частотной области сигнала, который имеет одну ненулевую полосу частот и фазу, изменяющуюся с фиксированным значением,
Figure 00000004
(верхнее) и
Figure 00000005
(нижнее);
Фиг. 7 показывает представление во временной области и в частотной области сигнала, который имеет одну ненулевую полосу частот, и фаза изменяется случайно;
Фиг. 8 показывает эффект, описанный относительно фиг. 6 в частотно-временном представлении четырех временных кадров и четырех подполос частот, причем только третья подполоса частот содержит частоту, отличающуюся от нуля;
Фиг. 9 показывает представление во временной области и в частотной области сигнала, который имеет один ненулевой временной кадр, и фаза изменяется с фиксированным значением,
Figure 00000004
(верхнее) и
Figure 00000005
(нижнее);
Фиг. 10 показывает представление во временной области и в частотной области сигнала, который имеет один ненулевой временной кадр, и фаза изменяется случайно;
Фиг. 11 показывает частотно-временную диаграмму, аналогичную частотно-временной диаграмме, показанной на фиг. 8, на которой только третий временной кадр содержит частоту, отличающуюся от нуля;
Фиг. 12a показывает производную фазы по времени сигнала скрипки в QMF-области в частотно-временном представлении;
Фиг. 12b показывает частоту производной фазы, соответствующую производной фазы по времени, показанной на фиг. 12a;
Фиг. 12c показывает производную фазы по времени сигнала тромбона в QMF-области в частотно-временном представлении;
Фиг. 12d показывает производную фазы по частоте соответствующей производной фазы по времени по фиг. 12c;
Фиг. 13a показывает производную фазы по времени сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 13b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 13a;
Фиг. 13c показывает производную фазы по времени сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 13d показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 13c;
Фиг. 14a схематично показывает четыре фазы, например, последующих временных кадров или подполос частот, в единичном кругу;
Фиг. 14b показывает фазы, проиллюстрированные на фиг. 14a, после SBR-обработки и, с помощью пунктирных линий, скорректированные фазы;
Фиг. 15 показывает принципиальную блок-схему аудиопроцессора 50;
Фиг. 16 показывает аудиопроцессор на принципиальной блок-схеме согласно дополнительному варианту осуществления;
Фиг. 17 показывает сглаженную ошибку в PDT сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 18a показывает ошибку в PDT сигнала скрипки в QMF-области для скорректированной SBR в частотно-временном представлении;
Фиг. 18b показывает производную фазы по времени, соответствующую ошибке, показанной на фиг. 18a;
Фиг. 19 показывает принципиальную блок-схему декодера;
Фиг. 20 показывает принципиальную блок-схему кодера;
Фиг. 21 показывает принципиальную блок-схему потока данных, который может представлять собой аудиосигнал;
Фиг. 22 показывает поток данных по фиг. 21 согласно дополнительному варианту осуществления;
Фиг. 23 показывает принципиальную блок-схему способа для обработки аудиосигнала;
Фиг. 24 показывает принципиальную блок-схему способа для декодирования аудиосигнала;
Фиг. 25 показывает принципиальную блок-схему способа для кодирования аудиосигнала;
Фиг. 26 показывает принципиальную блок-схему аудиопроцессора согласно дополнительному варианту осуществления;
Фиг. 27 показывает принципиальную блок-схему аудиопроцессора согласно предпочтительному варианту осуществления;
Фиг. 28a показывает принципиальную блок-схему фазового корректора в аудиопроцессоре, подробнее иллюстрирующую последовательность сигналов;
Фиг. 28b показывает этапы фазовой коррекции с другой точки зрения по сравнению с фиг. 26-28a;
Фиг. 29 показывает принципиальную блок-схему модуля определения целевых фазовых показателей в аудиопроцессоре, подробнее иллюстрирующую модуль определения целевых фазовых показателей;
Фиг. 30 показывает принципиальную блок-схему генератора целевого спектра в аудиопроцессоре, подробнее иллюстрирующую генератор целевого спектра;
Фиг. 31 показывает принципиальную блок-схему декодера;
Фиг. 32 показывает принципиальную блок-схему кодера;
Фиг. 33 показывает принципиальную блок-схему потока данных, который может представлять собой аудиосигнал;
Фиг. 34 показывает принципиальную блок-схему способа для обработки аудиосигнала;
Фиг. 35 показывает принципиальную блок-схему способа для декодирования аудиосигнала;
Фиг. 36 показывает принципиальную блок-схему способа для декодирования аудиосигнала;
Фиг. 37 показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью в частотно-временном представлении;
Фиг. 38a показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием скорректированной SBR в частотно-временном представлении;
Фиг. 38b показывает производную фазы по частоте, соответствующую ошибке, показанной на фиг. 38a;
Фиг. 39 показывает принципиальную блок-схему модуля вычисления;
Фиг. 40 показывает принципиальную блок-схему модуля вычисления, подробнее иллюстрирующую последовательность сигналов в модуле определения варьирования;
Фиг. 41 показывает принципиальную блок-схему модуля вычисления согласно дополнительному варианту осуществления;
Фиг. 42 показывает принципиальную блок-схему способа для определения данных фазовой коррекции для аудиосигнала;
Фиг. 43a показывает среднеквадратическое отклонение производной фазы по времени сигнала скрипки в QMF-области в частотно-временном представлении;
Фиг. 43b показывает среднеквадратическое отклонение производной фазы по частоте, соответствующее среднеквадратическому отклонению производной фазы по времени, показанному относительно фиг. 43a;
Фиг. 43c показывает среднеквадратическое отклонение производной фазы по времени сигнала тромбона в QMF-области в частотно-временном представлении;
Фиг. 43d показывает среднеквадратическое отклонение производной фазы по частоте, соответствующее среднеквадратическому отклонению производной фазы по времени, показанному на фиг. 43c;
Фиг. 44a показывает амплитуду сигнала скрипки+аплодисментов в QMF-области в частотно-временном представлении;
Фиг. 44b показывает фазовый спектр, соответствующий амплитудному спектру, показанному на фиг. 44a;
Фиг. 45a показывает производную фазы по времени сигнала скрипки+аплодисментов в QMF-области в частотно-временном представлении;
Фиг. 45b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 45a;
Фиг. 46a показывает производную фазы по времени сигнала скрипки+аплодисментов в QMF-области с использованием скорректированной SBR в частотно-временном представлении;
Фиг. 46b показывает производную фазы по частоте, соответствующую производной фазы по времени, показанной на фиг. 46a;
Фиг. 47 показывает частоты QMF-полос частот в частотно-временном представлении;
Фиг. 48a показывает частоты QMF-полос частот для SBR с прямой перезаписью по сравнению с исходными частотами, показанными в частотно-временном представлении;
Фиг. 48b показывает частоты QMF-полосы частот с использованием скорректированной SBR по сравнению с исходными частотами в частотно-временном представлении;
Фиг. 49 показывает оцененные частоты гармоник по сравнению с частотами QMF-полос частот исходного сигнала в частотно-временном представлении;
Фиг. 50a показывает ошибку в производной фазы по времени сигнала скрипки в QMF-области с использованием скорректированной SBR со сжатыми корректирующими данными в частотно-временном представлении;
Фиг. 50b показывает производную фазы по времени, соответствующую ошибке производной фазы по времени, показанной на фиг. 50a;
Фиг. 51a показывает форму сигнала для сигнала тромбона во временной диаграмме;
Фиг. 51b показывает сигнал временной области, соответствующий сигналу тромбона на фиг. 51a, который содержит только оцененные пики, при этом позиции пиков получены с использованием передаваемых метаданных;
Фиг. 52a показывает ошибку в фазовом спектре сигнала тромбона в QMF-области с использованием скорректированной SBR со сжатыми корректирующими данными в частотно-временном представлении;
Фиг. 52b показывает производную фазы по частоте, соответствующую ошибке в фазовом спектре, показанной на фиг. 52a;
Фиг. 53 показывает принципиальную блок-схему декодера;
Фиг. 54 показывает принципиальную блок-схему согласно предпочтительному варианту осуществления;
Фиг. 55 показывает принципиальную блок-схему декодера согласно дополнительному варианту осуществления;
Фиг. 56 показывает принципиальную блок-схему кодера;
Фиг. 57 показывает блок-схему модуля вычисления, который может использоваться в кодере, показанном на фиг. 56;
Фиг. 58 показывает принципиальную блок-схему способа для декодирования аудиосигнала; и
Фиг. 59 показывает принципиальную блок-схему способа для кодирования аудиосигнала.
Далее подробнее описываются варианты осуществления изобретения. Элементы, показанные на соответствующих чертежах, имеющие идентичную или аналогичную функциональность, имеют ассоциированные идентичные ссылки с номерами.
Варианты осуществления настоящего изобретения описываются относительно конкретной обработки сигналов. Следовательно, фиг. 1-14 описывают обработку сигналов, применяемую к аудиосигналу. Даже если варианты осуществления описываются относительно этой конкретной обработки сигналов, настоящее изобретение не ограничено этой обработкой и также дополнительно может применяться ко многим другим схемам обработки. Кроме того, фиг. 15-25 показывают варианты осуществления аудиопроцессора, который может использоваться для горизонтальной фазовой коррекции аудиосигнала. Фиг. 26-38 показывают варианты осуществления аудиопроцессора, который может использоваться для вертикальной фазовой коррекции аудиосигнала. Кроме того, фиг. 39-52 показывают варианты осуществления модуля вычисления для определения данных фазовой коррекции для аудиосигнала. Модуль вычисления может анализировать аудиосигнал и определять то, какой из вышеуказанных аудиопроцессоров применяется, либо, если ни один из аудиопроцессоров не является подходящим для аудиосигнала, не применять ни один из аудиопроцессоров к аудиосигналу. Фиг. 53-59 показывают варианты осуществления декодера и кодера, которые могут содержать второй процессор и модуль вычисления.
1. Введение
Перцепционное кодирование аудио распространяется в качестве главного направления, обеспечивающего цифровые технологии для всех типов вариантов применения, которые предоставляют аудио и мультимедиа потребителям с использованием каналов передачи или хранения с ограниченной пропускной способностью. Современные перцепционные аудиокодеки должны доставлять удовлетворительное качество звука при все более низких скоростях передачи битов. В свою очередь, следует мириться с определенными артефактами кодирования, которые являются наиболее приемлемыми для большинства слушателей. Расширение полосы пропускания (BWE) аудиосигнала представляет собой технологию для того, чтобы искусственно расширять частотный диапазон аудиокодера посредством спектральной трансляции или транспозиции передаваемых частей сигнала полосы низких частот в полосу высоких частот за счет введения определенных артефактов.
Выявлено, что некоторые из этих артефактов связаны с изменением производной фазы в искусственно расширенной полосе высоких частот. Один из этих артефактов заключается в изменении производной фазы по частоте (см. также "вертикальную" фазовую когерентность) [8]. Сохранение упомянутой производной фазы является перцепционно важным для тональных сигналов, имеющих форму сигналов временной области в форме последовательности импульсов и достаточно низкую основную частоту. Артефакты, связанные с изменением вертикальной производной фазы, соответствуют локальной дисперсии энергии во времени и зачастую выявляются в аудиосигналах, которые обработаны посредством BWE-технологий. Другой артефакт заключается в изменении производной фазы по времени (см. также "горизонтальную" фазовую когерентность), которая является перцепционно важной для тональных сигналов с насыщенным обертоном любой основной частоты. Артефакты, связанные с изменением горизонтальной производной фазы, соответствуют локальному смещению частоты в основном тоне и зачастую выявляются в аудиосигналах, которые обработаны посредством BWE-технологий.
Настоящее изобретение представляет средство для повторного регулирования вертикальной или горизонтальной производной фазы таких сигналов, когда это свойство нарушено посредством применения так называемого расширения полосы пропускания (BWE) аудиосигнала. Дополнительное средство предоставляется, чтобы определять то, является или нет восстановление производной фазы перцепционно полезным, и то, является или нет регулирование вертикальной или горизонтальной производной фазы перцепционно предпочтительным.
Способы расширения полосы пропускания, такие как репликация полос спектра (SBR) [9], зачастую используются в кодеках с низкой скоростью передачи битов. Они обеспечивают возможность передачи только относительно узкой низкочастотной области наряду с параметрической информацией относительно полос верхних частот. Поскольку скорость передачи битов параметрической информации является небольшой, может получаться существенное повышение эффективности кодирования.
Типично, сигнал для полос верхних частот получается посредством простого его копирования из передаваемой низкочастотной области. Обработка обычно выполняется в области комплексно-модулированной гребенки квадратурных зеркальных фильтров (QMF)[10], которая также предполагается далее. Перезаписанный сигнал обрабатывается посредством умножения спектра его амплитуды на подходящие усиления на основе передаваемых параметров. Цель состоит в том, чтобы получать амплитудный спектр, аналогичный амплитудному спектру исходного сигнала. Наоборот, фазовый спектр перезаписанного сигнала типично вообще не обрабатывается, а вместо этого непосредственно используется перезаписанный фазовый спектр.
Далее анализируются перцепционные последствия использования непосредственно перезаписанного фазового спектра. На основе наблюдаемых эффектов, предлагаются два показателя для обнаружения перцепционно наиболее значимых эффектов. Кроме того, предлагаются способы в отношении того, как корректировать фазовый спектр на их основе. В завершение, предлагаются стратегии для минимизации количества значений передаваемых параметров для выполнения коррекции.
Настоящее изобретение относится к таким выявленным сведениям, что сохранение или восстановление производной фазы позволяет исправлять заметные артефакты, обусловленные посредством технологий расширения полосы пропускания (BWE) аудиосигнала. Например, типичные сигналы, когда сохранение производной фазы является важным, представляют собой тона с контентом с насыщенным гармоническим обертоном, такие как вокализованная речь, медные духовые инструменты или смычковые инструменты.
Настоящее изобретение дополнительно предоставляет средство определять то, является или нет (для данного кадра сигнала) восстановление производной фазы перцепционно полезным, и то, является или нет регулирование вертикальной или горизонтальной производной фазы перцепционно предпочтительным.
Изобретение направлено на устройство и способ для коррекции производной фазы в аудиокодеках с использованием BWE-технологий со следующими аспектами:
1. Квантификация "важности" коррекции производной фазы
2. Зависимая от сигнала приоритезация либо коррекции вертикальной ("частотной") производной фазы, либо коррекции горизонтальной ("временной") производной фазы
3. Зависимое от сигнала переключение направления коррекции ("частотная" или "временная")
4. Выделенный режим коррекции вертикальной производной фазы для переходных частей
5. Получение стабильных параметров для сглаженной коррекции
6. Компактный формат передачи вспомогательной информации параметров коррекции
2. Представление сигналов в QMF-области
Сигнал
Figure 00000006
временной области, где
Figure 00000007
является дискретным временем, может представляться в частотно-временной области, например, с использованием комплексно-модулированной гребенки квадратурных зеркальных фильтров (QMF). Результирующий сигнал представляет собой
Figure 00000008
, где
Figure 00000009
является индексом полосы частот, а
Figure 00000010
является индексом временного кадра. QMF 64 полос частот и частота
Figure 00000011
дискретизации в 48 кГц предполагаются для визуализаций и вариантов осуществления. Таким образом, полоса
Figure 00000012
пропускания каждой полосы частот составляет 375 Гц, и размер
Figure 00000013
временного перескока (17 на фиг. 2) составляет 1,33 мс. Тем не менее, обработка не ограничена таким преобразованием. Альтернативно, вместо этого может использоваться MDCT (модифицированное дискретное косинусное преобразование) или DFT (дискретное преобразование Фурье).
Результирующий сигнал представляет собой
Figure 00000008
, где
Figure 00000009
является индексом полосы частот, а
Figure 00000010
является индексом временного кадра.
Figure 00000008
является комплексным сигналом. Таким образом, он также может представляться с использованием компонентов амплитуды
Figure 00000014
и фазы
Figure 00000015
, где j является комплексным числом:
Figure 00000016
. (1)
Аудиосигналы представляются главным образом с использованием
Figure 00000014
и
Figure 00000015
(см. фиг. 1 для двух примеров).
Фиг. 1a показывает амплитудный спектр
Figure 00000014
сигнала скрипки, при этом фиг. 1b показывает соответствующий фазовый спектр
Figure 00000015
, оба из которых находятся в QMF-области. Кроме того, фиг. 1c показывает амплитудный спектр
Figure 00000014
сигнала тромбона, при этом фиг. 1d показывает соответствующий фазовый спектр снова в соответствующей QMF-области. Относительно амплитудных спектров на фиг. 1a и 1c, цветовой градиент указывает амплитуду от красного цвета=0 дБ до синего цвета=-80 дБ. Кроме того, для фазовых спектров на фиг. 1b и 1d, цветовой градиент указывает фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
.
3. Аудиоданные
Аудиоданные, используемые для того, чтобы демонстрировать эффект описанной аудиообработки, называются "тромбон" для аудиосигнала тромбона, "скрипка" для аудиосигнала скрипки и "скрипка+аплодисменты" для сигнала скрипки с аплодисментами, добавленными в середине.
4. Базовый режим работы SBR
Фиг. 2 показывает частотно-временную диаграмму 5, содержащую частотно-временные мозаичные фрагменты 10 (например, QMF-элементы выборки, элементы выборки гребенки квадратурных зеркальных фильтров), заданные посредством временного кадра 15 и подполосы 20 частот. Аудиосигнал может преобразовываться в такое частотно-временное представление с использованием преобразования на основе QMF (гребенки квадратурных зеркальных фильтров), MDCT (модифицированного дискретного косинусного преобразования) или DFT (дискретного преобразования Фурье). Разделение аудиосигнала на временные кадры может содержать перекрывающиеся части аудиосигнала. В нижней части по фиг. 1, показано одно перекрытие временных кадров 15, в котором максимум два временных кадра перекрываются одновременно. Кроме того, т.е. если требуется большая избыточность, аудиосигнал также может разделяться с использованием множественного перекрытия. В алгоритме множественного перекрытия, три или более временных кадров могут содержать идентичную часть аудиосигнала в определенный момент времени. Длительность перекрытия составляет размер
Figure 00000019
17 перескока.
При условии сигнала
Figure 00000020
, сигнал
Figure 00000003
с расширенной полосой пропускания (BWE) получается из входного сигнала
Figure 00000008
посредством перезаписи определенных частей передаваемой полосы низких частот. SBR-алгоритм начинается посредством выбора частотной области для передачи. В этом примере, выбираются полосы частот от 1 до 7:
Figure 00000021
. (2)
Количество полос частот для передачи зависит от требуемой скорости передачи битов. Чертежи и уравнения создаются с использованием 7 полос частот, и от 5 до 11 полос частот используются для соответствующих аудиоданных. Таким образом, частоты разделения между передаваемой частотной областью и полосами верхних частот составляют от 1875 до 4125 Гц, соответственно. Полосы частот выше этой области вообще не передаются, а вместо этого создаются параметрические метаданные для их описания.
Figure 00000022
кодируется и передается. Для простоты, предполагается, что кодирование не модифицирует сигнал каким-либо образом, даже если отмечается, что последующая обработка не ограничена предполагаемым случаем.
На приемной стороне, передаваемая частотная область непосредственно используется для соответствующих частот.
Для полос верхних частот, сигнал может создаваться тем или иным образом с использованием передаваемого сигнала. Один подход заключается в том, чтобы просто копировать передаваемый сигнал в верхние частоты. Здесь используется немного модифицированная версия. Во-первых, выбирается сигнал основной полосы частот. Он может представлять собой полный передаваемый сигнал, но в этом варианте осуществления опускается первая полоса частот. Причина этого заключается в том, что отмечается то, что фазовый спектр во многих случаях является нерегулярным для первой полосы частот. Таким образом, основная полоса частот, которая должна быть перезаписана, задается следующим образом:
Figure 00000023
. (3)
Другие полосы пропускания также могут использоваться для передаваемых сигналов и сигналов основной полосы частот. С использованием сигнала основной полосы частот, создаются необработанные сигналы для верхних частот:
Figure 00000024
, (4)
где
Figure 00000025
является комплексным QMF-сигналом для частотного наложения
Figure 00000026
. Необработанные сигналы частотного наложения манипулируются согласно передаваемым метаданным посредством их умножения на усиления
Figure 00000027
:
Figure 00000028
. (5)
Следует отметить, что усиления являются действительнозначными, и в силу этого, только амплитудный спектр затрагивается и за счет этого адаптируется к требуемому целевому значению. Известные подходы показывают то, как получаются усиления. Целевая фаза остается нескорректированной в упомянутых известных подходах.
Конечный сигнал, который должен воспроизводиться, получается посредством конкатенации передаваемых сигналов и сигналов наложения для прозрачного расширения полосы пропускания, чтобы получать BWE-сигнал требуемой полосы пропускания. В этом варианте осуществления, предполагается
Figure 00000029
.
Figure 00000030
Figure 00000031
. (6)
Фиг. 3 показывает описанные сигналы в графическом представлении. Фиг. 3a показывает примерную частотную диаграмму аудиосигнала, при этом амплитуда частоты проиллюстрирована для десяти различных подполос частот. Первые семь подполос частот отражают передаваемые полосы
Figure 00000022
25 частот. Основная полоса
Figure 00000032
30 частот извлекается из них посредством выбора второй-седьмой подполосы частот. Фиг. 3a показывает исходный аудиосигнал, т.е. аудиосигнал до передачи или кодирования. Фиг. 3b показывает примерное частотное представление аудиосигнала после приема, например, в ходе процесса декодирования на промежуточном этапе. Частотный спектр аудиосигнала содержит передаваемые полосы 25 частот и семь сигналов 30 основной полосы частот, скопированных в подполосы верхних частот частотного спектра, формирующего аудиосигнал 32, содержащий частоты, превышающие частоты в основной полосе частот. Полный сигнал основной полосы частот также упоминается как частотное наложение. Фиг. 3c показывает восстановленный аудиосигнал
Figure 00000003
35. По сравнению с фиг. 3b, наложения сигналов основной полосы частот умножаются отдельно на коэффициент усиления. Следовательно, частотный спектр аудиосигнала содержит основной частотный спектр 25 и определенное число наложений
Figure 00000033
40 со скорректированной амплитудой. Этот способ наложения упоминается в качестве наложения с прямой перезаписью. Наложение с прямой перезаписью примерно используется для того, чтобы описывать настоящее изобретение, даже если изобретение не ограничено таким алгоритмом наложения. Дополнительный алгоритм наложения, который может использоваться, например, представляет собой алгоритм гармонического наложения.
Предполагается, что параметрическое представление полос верхних частот является идеальным, т.е. амплитудный спектр восстановленного сигнала является идентичным амплитудному спектру исходного сигнала:
Figure 00000034
. (7)
Тем не менее, следует отметить, что фазовый спектр не корректируется каким-либо образом посредством алгоритма, так что он не является корректным, даже если алгоритм работает идеально. Следовательно, варианты осуществления показывают то, как дополнительно адаптировать и корректировать фазовый спектр
Figure 00000003
относительно целевого значения таким образом, что получается повышение перцепционного качества. В вариантах осуществления, коррекция может выполняться с использованием трех различных режимов обработки, "горизонтального", "вертикального" и "переходных частей". Далее отдельно поясняются эти режимы.
Figure 00000035
и
Figure 00000036
проиллюстрированы на фиг. 4 для сигналов скрипки и тромбона. Фиг. 4 показывает примерные спектры восстановленного аудиосигнала 35 с использованием репликации полосы пропускания спектра (SBR) с наложением с прямой перезаписью. Амплитудный спектр
Figure 00000035
сигнала скрипки показан на фиг. 4a, при этом фиг. 4b показывает соответствующий фазовый спектр
Figure 00000036
. Фиг. 4c и 4d показывают соответствующие спектры для сигнала тромбона. Все сигналы представляются в QMF-области. Как уже отмечено на фиг. 1, цветовой градиент указывает амплитуду от красного цвета=0 дБ до синего цвета=-80 дБ и фазу от красного цвета=
Figure 00000037
до синего цвета=
Figure 00000018
. Можно видеть, что их фазовые спектры отличаются от спектров исходных сигналов (см. фиг. 1). Вследствие SBR, скрипка воспринимается как содержащая негармоничность, а тромбон как содержащий шумы модуляции на частотах разделения. Тем не менее, фазовые диаграммы выглядят довольно случайными, и действительно трудно сказать, насколько они отличаются, и каковы перцепционные эффекты разностей. Кроме того, отправка корректирующих данных для этого вида случайных данных не является целесообразной в вариантах применения кодирования, которые требуют низкой скорости передачи битов. Таким образом, требуется понимание перцепционных эффектов фазового спектра и нахождение показателей для их описания. Эти темы поясняются в нижеприведенных разделах.
5. Смысловое значение фазового спектра в QMF-области
Зачастую считается, что индекс полосы частот задает частоту одного тонального компонента, амплитуда задает его уровень, а фаза задает его "синхронизацию". Тем не менее, полоса пропускания QMF-полосы частот является относительно большой, и данные избыточно дискретизируются. Таким образом, взаимодействие между частотно-временными мозаичными фрагментами (т.е. QMF-элементами выборки) фактически задает все эти свойства.
Представление во временной области одного QMF-элемента выборки с тремя различными значениями фазы, т.е.
Figure 00000038
и
Figure 00000039
проиллюстрировано на фиг. 5. Результат представляет собой синхровидную функцию с длиной в 13,3 мс. Точная форма функции задается посредством фазового параметра.
При рассмотрении случая, в котором только одна полоса частот является ненулевой для всех временных кадров, т.е.:
Figure 00000040
. (8)
Посредством изменения фазы между временными кадрами с фиксированным значением
Figure 00000041
, т.е.:
Figure 00000042
, (9)
создается синусоида. Результирующий сигнал (т.е. сигнал временной области после обратного QMF-преобразования) представляется на фиг. 6 со значениями
Figure 00000043
(верхняя часть) и
Figure 00000005
(нижняя часть). Можно видеть, что частота синусоиды затрагивается посредством изменения фазы. Частотная область показана в правой части, при этом временная область сигнала показана в левой части фиг. 6.
Соответственно, если фаза выбирается случайно, результат является узкополосным шумом (см. фиг. 7). Таким образом, можно сказать, что фаза QMF-элемента выборки управляет частотным спектром внутри соответствующей полосы частот.
Фиг. 8 показывает эффект, описанный относительно фиг. 6 в частотно-временном представлении четырех временных кадров и четырех подполос частот, причем только третья подполоса частот содержит частоту, отличающуюся от нуля. Это приводит к сигналу частотной области из фиг. 6, схематично представленному в правой части фиг. 8, и к представлению во временной области по фиг. 6, схематично представленному в нижней части фиг. 8.
При рассмотрении случая, в котором только один временной кадр является ненулевым для всех полос частот, т.е.:
Figure 00000044
. (10)
Посредством изменения фазы между полосами частот с фиксированным значением
Figure 00000045
, т.е.:
Figure 00000046
, (11)
создается переходная часть. Результирующий сигнал (т.е. сигнал временной области после обратного QMF-преобразования) представляется на фиг. 9 со значениями
Figure 00000043
(верхняя часть) и
Figure 00000005
(нижняя часть). Можно видеть, что временная позиция переходной части затрагивается посредством изменения фазы. Частотная область показана в правой части фиг. 9, при этом временная область сигнала показана в левой части фиг. 9.
Соответственно, если фаза выбирается случайно, результат является коротким всплеском шумов (см. фиг. 10). Таким образом, можно сказать, что фаза QMF-элемента выборки также управляет временными позициями гармоник внутри соответствующего временного кадра.
Фиг. 11 показывает частотно-временную диаграмму, аналогичную частотно-временной диаграмме, показанной на фиг. 8. На фиг. 11, только третий временной кадр содержит значения, отличающиеся от нуля, имеющие сдвиг по времени в
Figure 00000004
между подполосами частот. После преобразования в частотную область, получается сигнал частотной области из правой стороны по фиг. 9, схематично представленный в правой части фиг. 11. Схематический вид представления во временной области левой части по фиг. 9 показан в нижней части фиг. 11. Этот сигнал получается в результате посредством преобразования частотно-временной области в сигнал временной области.
6. Показатели для описания перцепционно релевантных свойств фазового спектра
Как пояснено в разделе 4, фазовый спектр сам по себе выглядит довольно запутанным, и затруднительно видеть непосредственно то, каково его влияние на восприятие. Раздел 5 представляет два эффекта, которые могут вызываться посредством манипуляции фазовым спектром в QMF-области: (a) постоянное изменение фазы по времени формирует синусоиду, и величина изменения фазы управляет частотой синусоиды, и (b) постоянное изменение фазы по частоте формирует переходную часть, и величина изменения фазы управляет временной позицией переходной части.
Частота и временная позиция частичного тона являются очевидно значимыми для человеческого восприятия, так что обнаружение этих свойств является потенциально полезным. Они могут оцениваться посредством вычисления производной фазы по времени (PDT):
Figure 00000047
, (12)
и посредством вычисления производной фазы по частоте (PDF):
Figure 00000048
. (13)
Figure 00000049
связана с частотой, а
Figure 00000050
- с временной позицией частичного тона. Вследствие свойств QMF-анализа (то, насколько фазы модуляторов смежных временных кадров совпадают в позиции переходной части),
Figure 00000017
суммируется с четными временными кадрами
Figure 00000050
на чертежах в целях визуализации, чтобы формировать плавные кривые.
Затем проверяется то, как эти показатели выглядят для наших примерных сигналов. Фиг. 12 показывает производные для сигналов скрипки и тромбона. Более конкретно, фиг. 12a показывает производную фазы
Figure 00000049
по времени исходного, т.е. необработанного аудиосигнала скрипки в QMF-области. Фиг. 12b показывает соответствующую производную фазы
Figure 00000050
по частоте. Фиг. 12c и 12d показывает производную фазы по времени и производную фазы по частоте для сигнала тромбона, соответственно. Цветовой градиент указывает значения фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. Для скрипки, амплитудный спектр по существу является шумом приблизительно до 0,13 секунд (см. фиг. 1), и следовательно, производные также являются зашумленными. Начиная приблизительно с 0,13 секунды, обнаруживается, что
Figure 00000051
имеет относительно стабильные значения во времени. Это означает то, что сигнал содержит сильные, относительно стабильные синусоиды. Частоты этих синусоид определяются посредством значений
Figure 00000051
. Наоборот, обнаруживается, что график
Figure 00000052
является относительно зашумленным, так что релевантные данные не выявляются для скрипки с его использованием.
Для тромбона,
Figure 00000051
является относительно зашумленным. Наоборот, обнаруживается, что
Figure 00000052
имеет приблизительно идентичное значение на всех частотах. На практике, это означает то, что все гармонические компоненты совмещаются по времени, формируя переходный сигнал. Временные местоположения переходных частей определяются посредством значений
Figure 00000052
.
Идентичные производные также могут вычисляться для SBR-обработанных сигналов
Figure 00000053
(см. фиг. 13). Фиг. 13a-13d непосредственно связаны с фиг. 12a-12d, извлекаемыми посредством использования SBR-алгоритма с прямой перезаписью, описанного ранее. Поскольку фазовый спектр просто копируется из основной полосы частот в верхние наложения, PDT частотных наложений являются идентичными PDT основной полосы частот. Таким образом, для скрипки, PDT является относительно сглаженной во времени, формируя стабильные синусоиды, как и в случае исходного сигнала. Тем не менее, значения
Figure 00000054
отличаются от значений для исходного сигнала
Figure 00000051
, что вызывает то, что сформированные синусоиды имеют другие частоты относительно исходного сигнала. Перцепционный эффект означенного пояснен в разделе 7.
Соответственно, PDF частотных наложений в иных отношениях является идентичной PDF основной полосы частот, но на частотах разделения PDF, на практике, является случайной. На разделении, PDF фактически вычисляется между последним и первым значением фазы частотного наложения, т.е.:
Figure 00000055
(14)
Эти значения зависят от фактического PDF и частоты разделения, и они не совпадают со значениями исходного сигнала.
Для тромбона, PDF-значения перезаписанного сигнала являются корректными, за исключением частот разделения. Таким образом, временные местоположения большинства гармоник находятся в корректных местах, но гармоники на частотах разделения находятся практически в произвольных местоположениях. Перцепционный эффект означенного пояснен в разделе 7.
7. Человеческое восприятие фазовых ошибок
Звуки могут примерно разделяться на две категории: гармонические и шумоподобные сигналы. Шумоподобные сигналы имеют, уже по определению, зашумленные фазовые свойства. Таким образом, фазовые ошибки, вызываемые посредством SBR, предположительно не являются перцепционно значимыми для них. Вместо этого, они сконцентрированы на гармонических сигналах. Большинство музыкальных инструментов, а также речь формируют гармоническую структуру для сигнала, т.е. тон содержит сильные синусоидальные компоненты, разнесенные по частоте посредством основной частоты.
Человеческий слух зачастую предположительно имеет такой характер изменения, как если он содержит банк перекрывающихся полосовых фильтров, называемых в качестве слуховых фильтров. Таким образом, слух предположительно может трактовать комплексные звуки таким образом, что частичные звуки в слуховом фильтре анализируются в качестве одного объекта. Ширина этих фильтров может быть аппроксимирована таким образом, что она придерживается эквивалентной прямоугольной полосы пропускания (ERB) [11], которая может определяться согласно следующему:
Figure 00000056
, (15)
где
Figure 00000057
является центральной частотой полосы частот (в kHz). Как пояснено в разделе 4, частота разделения между основной полосой частот и SBR-наложениями составляет приблизительно 3 кГц. На этих частотах, ERB составляет приблизительно 350 Гц. Полоса пропускания QMF-полосы частот фактически располагается относительно близко к ней, 375 Гц. Следовательно, полоса пропускания QMF-полос частот предположительно может соответствовать ERB на интересующих частотах.
Два свойства звука, которые могут разладиться вследствие ошибочного фазового спектра, наблюдаются в разделе 6: частота и синхронизация частичного компонента. Если сконцентрироваться на частоте, вопрос заключается в том, может человеческий слух воспринимать частоты отдельных гармоник? Если он может, то смещение частоты, вызываемое посредством SBR, должно корректироваться, а если нет, то коррекция не требуется.
Принцип разрешаемых и неразрешаемых гармоник [12] может использоваться для того, чтобы прояснять эту тему. Если имеется только одна гармоника в ERB, гармоника называется "разрешаемой". Типично предполагается, что человеческий слух обрабатывает разрешаемые гармоники отдельно и в силу этого является чувствительным к их частоте. На практике, изменение частоты разрешаемых гармоник воспринимается как вызывающее негармоничность.
Соответственно, если имеется несколько гармоник в ERB, гармоники называются "неразрешаемыми". Человеческий слух предположительно не обрабатывает эти гармоники отдельно, а вместо этого, их объединенный эффект наблюдается посредством слуховой системы. Результат представляет собой периодический сигнал, и длина периода определяется посредством разнесения гармоник. Восприятие основного тона связано с длиной периода, так что человеческий слух предположительно должен быть чувствительным к ней. Тем не менее, если все гармоники в частотном наложении в SBR сдвигаются на одинаковую величину, разнесение между гармониками и в силу этого воспринимаемый основной тон остается идентичным. Следовательно, в случае неразрешаемых гармоник, человеческий слух не воспринимает смещения частоты в качестве негармоничности.
Далее рассматриваются связанные с синхронизацией ошибки, вызываемые посредством SBR. Под синхронизацией подразумевается временная позиция или фаза гармонического компонента. Ее не следует путать с фазой QMF-элемента выборки. Восприятие связанных с синхронизацией ошибок подробно изучено в [13]. Следует отметить, что для большинства сигналов, человеческий слух не является чувствительным к синхронизации или фазе гармонических компонентов. Тем не менее, предусмотрены определенные сигналы, для которых человеческий слух является очень чувствительным к синхронизации частичных тонов. Сигналы включают в себя, например, звуки тромбона и трубы и речь. Для этих сигналов, определенный фазовый угол возникает в один момент времени со всеми гармониками. Частота возбуждения нейронов различных полос слуховых частот смоделирована в [13]. Выяснено, что для этих фазочувствительных сигналов, сформированная частота возбуждения нейронов является пиковой во всех полосах слуховых частот, и что пики совмещаются по времени. Изменение фазы даже одной гармоники может изменять пиковость частоты возбуждения нейронов с помощью этих сигналов. Согласно результатам формального теста на основе прослушивания, человеческий слух является чувствительным к этому [13]. Сформированные эффекты представляют собой восприятие добавленного синусоидального компонента или узкополосного шума на частотах, на которых модифицирована фаза.
Помимо этого, выяснено, что чувствительность к связанным с синхронизацией эффектам зависит от основной частоты гармонического тона [13]. Чем ниже основная частота, тем большими являются воспринимаемые эффекты. Если основная частота выше приблизительно 800 Гц, слуховая система вообще не является чувствительной к связанным с синхронизацией эффектам.
Таким образом, если основная частота является низкой, и если фаза гармоник совмещается по частоте (что означает то, что временные позиции гармоник совмещаются), изменения синхронизации, или другими словами, фазы гармоник может восприниматься посредством человеческого слуха. Если основная частота является высокой, и/или фаза гармоник не совмещается по частоте, человеческий слух не является чувствительным к изменениям синхронизации гармоник.
8. Способы коррекции
В разделе 7 отмечено, что люди являются чувствительными к ошибкам в частотах разрешаемых гармоник. Помимо этого, люди являются чувствительными к ошибкам во временных позициях гармоник, если основная частота является низкой, и если гармоники совмещаются по частоте. SBR может вызывать обе эти ошибки, как пояснено в разделе 6, так что воспринимаемое качество может повышаться посредством их коррекции. Способы для этого предлагаются в этом разделе.
Фиг. 14 схематично иллюстрирует базовую идею в отношении способов коррекции. Фиг. 14a схематично показывает четыре фазы 45a-d, например, последующих временных кадров или подполос частот, в единичном кругу. Фазы 45a-d разнесены одинаково на 90°. Фиг. 14b показывает фазы после SBR-обработки и, с помощью пунктирных линий, скорректированные фазы. Фаза 45a перед обработкой может сдвигаться на фазовый угол 45a'. То же применимо к фазам 45b-45d. Показано, что разность между фазами после обработки, т.е. производная фазы, может нарушаться после SBR-обработки. Например, разность между фазами 45a' и 45b' составляет 110° после SBR-обработки, которая составляла 90° перед обработкой. Способы коррекции должны изменять значения 45b' фазы на новое значение 45b'' фазы, чтобы извлекать старую производную фазы в 90°. Идентичная коррекция применяется к фазам 45d' и 45d''.
8.1. Коррекция ошибок по частоте: коррекция горизонтальной производной фазы
Как пояснено в разделе 7, люди могут воспринимать ошибку по частоте гармоники главным образом, когда существует только одна гармоника в одной ERB. Кроме того, полоса пропускания QMF-полосы частот может использоваться для того, чтобы оценивать ERB на первом разделении. Следовательно, частота должна корректироваться только тогда, когда существует одна гармоника в одной полосе частот. Это является очень удобным, поскольку раздел 5 показывает то, если существует одна гармоника в расчете на полосу частот, сформированные PDT-значения являются стабильными или медленно изменяются во времени и потенциально могут корректироваться с использованием низкой скорости передачи битов.
Фиг. 15 показывает аудиопроцессор 50 для обработки аудиосигнала 55. Аудиопроцессор 50 содержит модуль 60 вычисления фазовых показателей аудиосигнала, модуль 65 определения целевых фазовых показателей и фазовый корректор 70. Модуль 60 вычисления фазовых показателей аудиосигнала сконфигурирован с возможностью вычисления фазового показателя 80 аудиосигнала 55 для временного кадра 75. Модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью определения целевого фазового показателя 85 для упомянутого временного кадра 75. Кроме того, фазовый корректор сконфигурирован с возможностью коррекции фаз 45 аудиосигнала 55 для временного кадра 75 с использованием вычисленного фазового показателя 80 и целевого фазового показателя 85, чтобы получать обработанный аудиосигнал 90. Необязательно, аудиосигнал 55 содержит множество подполосных сигналов 95 для временного кадра 75. Дополнительные варианты осуществления аудиопроцессора 50 описываются относительно фиг. 16. Согласно варианту осуществления, модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя 85a и второго целевого фазового показателя 85b для второго подполосного сигнала 95b. Соответственно, модуль 60 вычисления фазовых показателей аудиосигнала сконфигурирован с возможностью определения первого фазового показателя 80a для первого подполосного сигнала 95a и второго фазового показателя 80b для второго подполосного сигнала 95b. Фазовый корректор сконфигурирован с возможностью коррекции фазы 45a первого подполосного сигнала 95a с использованием первого фазового показателя 80a аудиосигнала 55 и первого целевого фазового показателя 85a и корректировать вторую фазу 45b второго подполосного сигнала 95b с использованием второго фазового показателя 80b аудиосигнала 55 и второго целевого фазового показателя 85b. Кроме того, аудиопроцессор 50 содержит синтезатор 100 аудиосигналов для синтезирования обработанного аудиосигнала 90 с использованием обработанного первого подполосного сигнала 95a и обработанного второго подполосного сигнала 95b. Согласно дополнительным вариантам осуществления, фазовый показатель 80 является производной фазы по времени. Следовательно, модуль 60 вычисления фазовых показателей аудиосигнала может вычислять, для каждой подполосы 95 частот из множества подполос частот, производную фазы значения 45 фазы текущего временного кадра 75b и значения фазы будущего временного кадра 75c. Соответственно, фазовый корректор 70 может вычислять, для каждой подполосы 95 частот из множества подполос частот текущего временного кадра 75b, отклонение между целевой производной фазы 85 и производной фазы 80 по времени, при этом коррекция, выполняемая посредством фазового корректора 70, выполняется с использованием отклонения.
Варианты осуществления показывают фазовый корректор 70, сконфигурированный с возможностью коррекции подполосных сигналов 95 различных подполос частот аудиосигнала 55 во временном кадре 75, так что частоты скорректированных подполосных сигналов 95 имеют значения частоты, гармонически выделяемые основной частоте аудиосигнала 55. Основная частота представляет собой наименьшую частоту, возникающую в аудиосигнале 55, или другими словами, первые гармоники аудиосигнала 55.
Кроме того, фазовый корректор 70 сконфигурирован с возможностью сглаживания отклонения 105 для каждой подполосы 95 частот из множества подполос частот по предыдущему временному кадру, текущему временному кадру и будущему временному кадру 75a-75c и сконфигурирован с возможностью уменьшения быстрых изменений отклонения 105 в подполосе 95 частот. Согласно дополнительным вариантам осуществления, сглаживание является взвешенным средним, при этом фазовый корректор 70 сконфигурирован с возможностью вычисления взвешенного среднего по предыдущему, текущему и будущему временным кадрам 75a-75c, взвешенным посредством амплитуды аудиосигнала 55 в предыдущем, текущем и будущем временном кадре 75a-75c.
Варианты осуществления показывают вышеописанные векторные этапы обработки. Следовательно, фазовый корректор 70 сконфигурирован с возможностью формирования вектора отклонений 105, при этом первый элемент вектора относится к первому отклонению 105a для первой подполосы 95a частот из множества подполос частот, и второй элемент вектора относится к второму отклонению 105b для второй подполосы 95b частот из множества подполос частот от предыдущего временного кадра 75a до текущего временного кадра 75b. Кроме того, фазовый корректор 70 может применять вектор отклонений 105 к фазам 45 аудиосигнала 55, при этом первый элемент вектора применяется к фазе 45a аудиосигнала 55 в первой подполосе 95a частот из множества подполос частот аудиосигнала 55, и второй элемент вектора применяется к фазе 45b аудиосигнала 55 во второй подполосе 95b частот из множества подполос частот аудиосигнала 55.
С другой точки зрения, можно указать то, что полная обработка в аудиопроцессоре 50 является векторной, при этом каждый вектор представляет временной кадр 75, при этом каждая подполоса 95 частот из множества подполос частот содержит элемент вектора. Дополнительные варианты осуществления акцентируют внимание на модуле определения целевых фазовых показателей, который сконфигурирован с возможностью получения оценки 85b основной частоты для текущего временного кадра 75b, при этом модуль 65 определения целевых фазовых показателей сконфигурирован с возможностью вычисления оценки 85 частоты для каждой подполосы частот из множества подполос частот для временного кадра 75 с использованием оценки 85 основной частоты для временного кадра 75. Кроме того, модуль 65 определения целевых фазовых показателей может преобразовывать оценки 85 частоты для каждой подполосы 95 частот из множества подполос частот в производную фазы по времени с использованием общего числа подполос 95 частот и частоты дискретизации аудиосигнала 55. Для разъяснения следует отметить, что вывод 85 модуля 65 определения целевых фазовых показателей может быть либо оценкой частоты, либо производной фазы по времени, в зависимости от варианта осуществления. Следовательно, в одном варианте осуществления, оценка частоты уже содержит правильный формат для последующей обработки в фазовом корректоре 70, при этом в другом варианте осуществления оценка, частоты должна преобразовываться в подходящий формат, который может быть производной фазы по времени.
Соответственно, модуль 65 определения целевых фазовых показателей также может рассматриваться в качестве векторного. Следовательно, модуль 65 определения целевых фазовых показателей может формировать вектор оценок 85 частоты для каждой подполосы 95 частот из множества подполос частот, при этом первый элемент вектора относится к оценке 85a частоты для первой подполосы 95a частот, и второй элемент вектора относится к оценке 85b частоты для второй подполосы 95b частот. Дополнительно, модуль 65 определения целевых фазовых показателей может вычислять оценку 85 частоты с использованием кратных основной частоты, при этом оценка 85 частоты текущей подполосы 95 частот является кратным основной частоты, которое является ближайшим к центру подполосы 95 частот, или при этом оценка 85 частоты текущей подполосы частот является граничной частотой текущей подполосы 95 частот, если ни одно из кратных основной частоты не находится в текущей подполосе 95 частот.
Другими словами, предлагаемый алгоритм для коррекции ошибок в частотах гармоник с использованием аудиопроцессора 50 работает следующим образом. Во-первых, вычисляется PDT и SBR-обработанный сигнал
Figure 00000054
:
Figure 00000058
. После этого вычисляется разность между ним и целевым PDT для горизонтальной коррекции:
Figure 00000059
. (16a)
В этот момент, целевая PDT предположительно может быть равной PDT ввода входного сигнала:
Figure 00000060
. (16b)
Ниже представлено то, как целевая PDT может получаться с низкой скоростью передачи битов.
Это значение (т.е. значение 105 ошибки) сглаживается во времени с использованием взвешивающей функции
Figure 00000061
Ханна. Подходящая длина составляет, например, 41 выборку в QMF-области (соответствующую интервалу в 55 мс). Сглаживание взвешивается посредством амплитуды соответствующих частотно-временных мозаичных фрагментов:
Figure 00000062
, (17)
где circmean
Figure 00000063
обозначает вычисление кругового среднего значения для угловых значений
Figure 00000064
, взвешенных посредством значений
Figure 00000065
. Сглаженная ошибка в PDT
Figure 00000066
проиллюстрирована на фиг. 17 для сигнала скрипки в QMF-области с использованием SBR с прямой перезаписью. Цветовой градиент указывает значения фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
.
Затем, матрица модулятора создается для модификации фазового спектра, чтобы получать требуемую PDT:
Figure 00000067
. (18)
Фазовый спектр обрабатывается с использованием этой матрицы:
Figure 00000068
. (19)
Фиг. 18a показывает ошибку в производной фазы
Figure 00000066
по времени (PDT) сигнала скрипки в QMF-области для скорректированной SBR. Фиг. 18b показывает соответствующую производную фазы
Figure 00000069
по времени, при этом ошибка в PDT, показанной на фиг. 18a, извлечена посредством сравнения результатов, представленных на фиг. 12a, с результатами, представленными на фиг. 18b. С другой стороны, цветовой градиент указывает значения фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. PDT вычисляется для скорректированного фазового спектра
Figure 00000070
(см. фиг. 18b). Можно видеть, что PDT скорректированного фазового спектра сильно напоминает PDT исходного сигнала (см. фиг. 12), и ошибка является небольшой для частотно-временных мозаичных фрагментов, содержащих значительную энергию (см. фиг. 18a). Можно отметить, что негармоничность нескорректированных SBR-данных большей частью устранена. Кроме того, алгоритм, по-видимому, не вызывает значительные артефакты.
С использованием
Figure 00000049
в качестве целевой PDT, вероятно передавать значения
Figure 00000066
PDT-ошибки для каждого частотно-временного мозаичного фрагмента. Дополнительный подход, вычисляющий целевую PDT таким образом, что полоса пропускания для передачи уменьшается, показан в разделе 9.
В дополнительных вариантах осуществления, аудиопроцессор 50 может быть частью декодера 110. Следовательно, декодер 110 для декодирования аудиосигнала 55 может содержать аудиопроцессор 50, базовый декодер 115 и модуль 120 наложения. Базовый декодер 115 сконфигурирован с возможностью базового декодирования аудиосигнала 25 во временном кадре 75 с сокращенным числом подполос частот относительно аудиосигнала 55. Модуль наложения накладывает набор подполос 95 частот базового декодированного аудиосигнала 25 с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение 30a, на дополнительные подполосы частот во временном кадре 75, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал 55 с нормальным числом подполос частот. Дополнительно, аудиопроцессор 50 сконфигурирован с возможностью коррекции фаз 45 в подполосах частот первого наложения 30a согласно целевой функции 85. Аудиопроцессор 50 и аудиосигнал 55 описаны относительно фиг. 15 и 16, на которых поясняются ссылки с номерами, не проиллюстрированные на фиг. 19. Аудиопроцессор согласно вариантам осуществления выполняет фазовую коррекцию. В зависимости от вариантов осуществления, аудиопроцессор дополнительно может содержать коррекцию амплитуды аудиосигнала посредством модуля 125 применения параметров расширения полосы пропускания, применяющего BWE- или SBR-параметры к наложениям. Кроме того, аудиопроцессор может содержать синтезатор 100, например, гребенку синтезирующих фильтров, для комбинирования, т.е. синтезирования подполос частот аудиосигнала, чтобы получать нормальный аудиофайл.
Согласно дополнительным вариантам осуществления, модуль 120 наложения сконфигурирован с возможностью наложения набора подполос 95 частот аудиосигнала 25, при этом набор подполос частот формирует второе наложение, на дополнительные подполосы частот временного кадра, смежные с первым наложением, и при этом аудиопроцессор 50 сконфигурирован с возможностью коррекции фазы 45 в подполосах частот второго наложения. Альтернативно, модуль 120 наложения сконфигурирован с возможностью наложения скорректированного первого наложения на дополнительные подполосы частот временного кадра, смежные с первым наложением.
Другими словами, в первом варианте, модуль наложения компонует аудиосигнал с нормальным числом подполос частот из передаваемой части аудиосигнала, и после этого фазы каждого наложения аудиосигнала корректируются. Второй вариант сначала корректирует фазы первого наложения относительно передаваемой части аудиосигнала и после этого компонует аудиосигнал с нормальным числом подполос частот с уже скорректированным первым наложением.
Дополнительные варианты осуществления показывают декодер 110, содержащий модуль 130 извлечения потоков данных, сконфигурированный с возможностью извлечения основной частоты 114 текущего временного кадра 75 аудиосигнала 55 из потока 135 данных, при этом поток данных дополнительно содержит кодированный аудиосигнал 145 с сокращенным числом подполос частот. Альтернативно, декодер может содержать анализатор 150 основной частоты, сконфигурированный с возможностью анализа базового декодированного аудиосигнала 25, чтобы вычислять основную частоту 140. Другими словами, варианты для извлечения основной частоты 140 представляют собой, например, анализ аудиосигнала в декодере или в кодере, при этом во втором случае основная частота может быть более точной за счет более высокой скорости передачи данных, поскольку значение должно передаваться из кодера в декодер.
Фиг. 20 показывает кодер 155 для кодирования аудиосигнала 55. Кодер содержит базовый кодер 160 для базового кодирования аудиосигнала 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала, и кодер содержит анализатор 175 основной частоты для анализа аудиосигнала 55 или фильтрованной по нижним частотам версии аудиосигнала 55 для получения оценки основной частоты аудиосигнала. Кроме того, кодер содержит модуль 165 извлечения параметров для извлечения параметров подполос частот аудиосигнала 55, не включенного в базовый кодированный аудиосигнал 145, и кодер содержит формирователь 170 выходных сигналов для формирования выходного сигнала 135, содержащего базовый кодированный аудиосигнал 145, параметры и оценку основной частоты. В этом варианте осуществления, кодер 155 может содержать фильтр нижних частот перед базовым декодером 160 и фильтр 185 верхних частот перед модулем 165 извлечения параметров. Согласно дополнительным вариантам осуществления, формирователь 170 выходных сигналов сконфигурирован с возможностью формирования выходного сигнала 135 в последовательность кадров, при этом каждый кадр содержит базовый кодированный сигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку 140 основной частоты, где n≥2. В вариантах осуществления, базовый кодер 160, например, может представлять собой кодер по стандарту AAC (усовершенствованного кодирования аудио).
В альтернативном варианте осуществления, кодер на основе интеллектуального заполнения интервалов отсутствия сигнала может использоваться для кодирования аудиосигнала 55. Следовательно, базовый кодер кодирует аудиосигнал полной полосы пропускания, в котором, по меньшей мере, одна подполоса частот аудиосигнала исключается. Следовательно, модуль 165 извлечения параметров извлекает параметры для восстановления подполос частот, исключенных из процесса кодирования базового кодера 160.
Фиг. 21 показывает схематичную иллюстрацию выходного сигнала 135. Выходной сигнал представляет собой аудиосигнал, содержащий базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно исходного аудиосигнала 55, параметр 190, представляющий подполосы частот аудиосигнала, не включенные в базовый кодированный аудиосигнал 145, и оценку 140 основной частоты аудиосигнала 135 или исходного аудиосигнала 55.
Фиг. 22 показывает вариант осуществления аудиосигнала 135, при этом аудиосигнал формируется в последовательность кадров 195, при этом каждый кадр 195 содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр 195 содержит оценку 140 основной частоты, где n≥2. Это может описывать передачу равномерно разнесенных оценок основной частоты, например, для каждого 20-го кадра, или при этом оценка основной частоты передается нерегулярно, например, по требованию или специально.
Фиг. 23 показывает способ 2300 для обработки аудиосигнала с этапом 2305 "вычисление фазового показателя аудиосигнала для временного кадра с помощью модуля вычисления производных фазы аудиосигнала", этапом 2310 "определение целевого фазового показателя для упомянутого временного кадра с помощью модуля определения целевой производной фазы" и этапом 2315 "коррекция фаз аудиосигнала для временного кадра с помощью фазового корректора с использованием вычисленного фазового показателя и целевого фазового показателя, с тем чтобы получать обработанный аудиосигнал".
Фиг. 24 показывает способ 2400 для декодирования аудиосигнала с этапом 2405 "декодирование аудиосигнала во временном кадре с сокращенным числом подполос частот относительно аудиосигнала", этапом 2410 "наложение набора подполос частот декодированного аудиосигнала с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал с нормальным числом подполос частот" и этапом 2415 "коррекция фаз в подполосах частот первого наложения согласно целевой функции с помощью аудиопроцессора".
Фиг. 25 показывает способ 2500 для кодирования аудиосигнала с этапом 2505 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этапом 2510 "анализ аудиосигнала или фильтрованной по нижним частотам версии аудиосигнала с помощью анализатора основной частоты для получения оценки основной частоты для аудиосигнала", этапом 2515 "извлечение параметров подполос частот аудиосигнала, не включенного в базовый кодированный аудиосигнал, с помощью модуля извлечения параметров" и этапом 2520 "формирование выходного сигнала, содержащего базовый кодированный аудиосигнал, параметры и оценку основной частоты, с помощью формирователя выходных сигналов".
Описанные способы 2300, 2400 и 2500 могут реализовываться в программном коде компьютерной программы для осуществления способов, когда компьютерная программа работает на компьютере.
8.2. Коррекция временных ошибок: коррекция вертикальной производной фазы
Как пояснено выше, люди могут воспринимать ошибку во временной позиции гармоники, если гармоники синхронизируются по частоте, и если основная частота является низкой. В разделе 5 показано, что гармоники синхронизируются, если производная фазы по частоте является постоянной в QMF-области. Следовательно, преимущественно иметь, по меньшей мере, одну гармонику в каждой полосе частот. Иначе "пустые" полосы частот должны иметь случайные фазы и возмущать этот показатель. К счастью, люди являются чувствительными к временному местоположению гармоник только тогда, когда основная частота является низкой (см. раздел 7). Таким образом, производная фазы по частоте может использоваться в качестве показателя для определения перцепционно значительных эффектов вследствие временных перемещений гармоник.
Фиг. 26 показывает принципиальную блок-схему аудиопроцессора 50' для обработки аудиосигнала 55, при этом аудиопроцессор 50' содержит модуль 65' определения целевых фазовых показателей, модуль 200 вычисления фазовых ошибок и фазовый корректор 70'. Модуль 65' определения целевых фазовых показателей определяет целевой фазовый показатель 85' для аудиосигнала 55 во временном кадре 75. Модуль 200 вычисления фазовых ошибок вычисляет фазовую ошибку 105' с использованием фазы аудиосигнала 55 во временном кадре 75 и целевого фазового показателя 85'. Фазовый корректор 70' корректирует фазу аудиосигнала 55 во временном кадре с использованием фазовой ошибки 105', формируя обработанный аудиосигнал 90'.
Фиг. 27 показывает принципиальную блок-схему аудиопроцессора 50' согласно дополнительному варианту осуществления. Следовательно, аудиосигнал 55 содержит множество подполос 95 частот для временного кадра 75. Соответственно, модуль 65' определения целевых фазовых показателей сконфигурирован с возможностью определения первого целевого фазового показателя 85a' для первого подполосного сигнала 95a и второго целевого фазового показателя 85b' для второго подполосного сигнала 95b. Модуль 200 вычисления фазовых ошибок формирует вектор фазовых ошибок 105', при этом первый элемент вектора относится к первому отклонению 105a' фазы первого подполосного сигнала 95 и первому целевому фазовому показателю 85a', и при этом второй элемент вектора относится к второму отклонению 105b' фазы второго подполосного сигнала 95b и второму целевому фазовому показателю 85b'. Кроме того, аудиопроцессор 50' содержит синтезатор 100 аудиосигналов для синтезирования скорректированного аудиосигнала 90' с использованием скорректированного первого подполосного сигнала 90a' и скорректированного второго подполосного сигнала 90b'.
Относительно дополнительных вариантов осуществления, множество подполос 95 частот группируется в основную полосу 30 частот и набор частотных наложений 40, основная полоса 30 частот, содержащая одну подполосу 95 частот аудиосигнала 55 и набор частотных наложений 40, содержит, по меньшей мере, одну подполосу 95 частот основной полосы 30 частот на частоте, превышающей частоту, по меньшей мере, одной подполосы частот в основной полосе частот. Следует отметить, что наложение аудиосигнала уже описано относительно фиг. 3 и в силу этого подробно не описывается в этой части описания. Просто следует упомянуть, что частотные наложения 40 могут представлять собой необработанный сигнал основной полосы частот, скопированный в верхние частоты, умноженные на коэффициент усиления, к которому может применяться фазовая коррекция. Кроме того, согласно предпочтительному варианту осуществления, умножение усиления и фазовой коррекции может переключаться таким образом, что фазы необработанного сигнала основной полосы частот копируются в верхние частоты до умножения на коэффициент усиления. Вариант осуществления дополнительно показывает модуль 200 вычисления фазовых ошибок, вычисляющий среднее значение элементов вектора фазовых ошибок 105', относящегося к первому наложению 40a набора частотных наложений 40, чтобы получать среднюю фазовую ошибку 105''. Кроме того, показан модуль 210 вычисления производных фазы аудиосигнала для вычисления среднего значения производных фазы 215 по частоте для основной полосы 30 частот.
Фиг. 28a показывает подробное описание фазового корректора 70' на блок-схеме. Фазовый корректор 70' в верхней части фиг. 28a сконфигурирован с возможностью коррекции фазы подполосных сигналов 95 в первом и последующих частотных наложениях 40 набора частотных наложений. В варианте осуществления по фиг. 28a проиллюстрировано то, что подполосы 95c и 95d частот принадлежат наложению 40a, и подполосы 95e частот и 95f принадлежат частотному наложению 40b. Фазы корректируются с использованием средневзвешенной фазовой ошибки, при этом средняя фазовая ошибка 105 взвешивается согласно индексу частотного наложения 40, чтобы получать модифицированный сигнал 40' наложения.
Дополнительный вариант осуществления проиллюстрирован в нижней части фиг. 28a. В левом верхнем углу фазового корректора 70', показан уже описанный вариант осуществления для получения модифицированного сигнала 40' наложения из наложений 40 и средней фазовой ошибки 105''. Кроме того, фазовый корректор 70' вычисляет на этапе инициализации дополнительный модифицированный сигнал 40'' наложения с оптимизированным первым частотным наложением посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством текущего индекса подполосы частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в основной полосе 30 частот аудиосигнала 55. Для этого этапа инициализации переключатель 220a находится в своей левой позиции. Для дальнейших этапов обработки, переключатель должен находиться в другой позиции, формирующей вертикально направленное соединение.
В дополнительном варианте осуществления, модуль 210 вычисления производных фазы аудиосигнала сконфигурирован с возможностью вычисления среднего значения производных фазы 215 по частоте для множества подполосных сигналов, содержащих более высокие частоты по сравнению с сигналом 30 основной полосы частот, чтобы обнаруживать переходные части в подполосном сигнале 95. Следует отметить, что коррекция переходных частей является аналогичной вертикальной фазовой коррекции аудиопроцессора 50' с тем отличием, что частоты в основной полосе 30 частот не отражают верхние частоты переходной части. Следовательно, эти частоты должны учитываться для фазовой коррекции переходной части.
После этапа инициализации, фазовый корректор 70' сконфигурирован с возможностью рекурсивного обновления, на основе частотных наложений 40, дополнительного модифицированного сигнала 40'' наложения посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы 95 частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении. Предпочтительный вариант осуществления является комбинацией вышеописанных вариантов осуществления, в которой фазовый корректор 70' вычисляет взвешенное среднее модифицированного сигнала 40' наложения и дополнительного модифицированного сигнала 40'' наложения, с тем чтобы получать комбинированный модифицированный сигнал 40''' наложения. Следовательно, фазовый корректор 70' рекурсивно обновляет, на основе частотных наложений 40, комбинированный модифицированный сигнал 40''' наложения посредством суммирования среднего значения производных фазы 215 по частоте, взвешенных посредством индекса подполосы частот для текущей подполосы 95 частот, с фазой подполосного сигнала с наибольшим индексом подполосы частот в предыдущем частотном наложении комбинированного модифицированного сигнала 40''' наложения. Чтобы получать комбинированные модифицированные наложения 40a''', 40b''' и т.д., переключатель 220b сдвигается в следующую позицию после каждой рекурсии, начиная в комбинированном модифицированном наложении 48''' для этапа инициализации, переключаясь на комбинированное модифицированное наложение 40b''' после первой рекурсии и т.д.
Кроме того, фазовый корректор 70' может вычислять взвешенное среднее сигнала 40' наложения и модифицированного сигнала 40'' наложения с использованием кругового среднего значения сигнала 40' наложения в текущем частотном наложении, взвешенного с помощью первой конкретной функции взвешивания, и модифицированного сигнала 40'' наложения в текущем частотном наложении, взвешенного с помощью конкретной функции взвешивания.
Чтобы предоставлять функциональную совместимость между аудиопроцессором 50 и аудиопроцессором 50', фазовый корректор 70' может формировать вектор фазовых отклонений, при этом фазовые отклонения вычисляются с использованием комбинированного модифицированного сигнала 40''' наложения и аудиосигнала 55.
Фиг. 28b иллюстрирует этапы фазовой коррекции с другой точки зрения. Для первого временного кадра 75a, сигнал 40' наложения извлекается посредством применения первого режима фазовой коррекции к наложениям аудиосигнала 55. Сигнал 40' наложения используется на этапе инициализации второго режима коррекции, чтобы получать модифицированный сигнал 40'' наложения. Комбинация сигнала 40' наложения и модифицированного сигнала 40'' наложения приводит к комбинированному модифицированному сигналу 40''' наложения.
Следовательно, второй режим коррекции применяется к комбинированному модифицированному сигналу 40''' наложения, с тем чтобы получать модифицированный сигнал 40'' наложения для второго временного кадра 75b. Дополнительно, первый режим коррекции применяется к наложениям аудиосигнала 55 во втором временном кадре 75b, чтобы получать сигнал 40' наложения. С другой стороны, комбинация сигнала 40' наложения и модифицированного сигнала 40'' наложения приводит к комбинированному модифицированному сигналу 40''' наложения. Схема обработки, описанная для второго временного кадра, применяется к третьему временному кадру 75c и всем дополнительным временным кадрам аудиосигнала 55, соответственно.
Фиг. 29 показывает подробную блок-схему модуля 65' определения целевых фазовых показателей. Согласно варианту осуществления, модуль 65' определения целевых фазовых показателей содержит модуль 130' извлечения потоков данных для извлечения позиции 230 пика и основной частоты позиций 235 пиков в текущем временном кадре аудиосигнала 55 из потока 135 данных. Альтернативно, модуль 65' определения целевых фазовых показателей содержит анализатор 225 аудиосигналов для анализа аудиосигнала 55 в текущем временном кадре, чтобы вычислять позицию 230 пика и основную частоту позиций 235 пиков в текущем временном кадре. Дополнительно, модуль определения целевых фазовых показателей содержит генератор 240 целевого спектра для оценки дополнительных позиций пиков в текущем временном кадре с использованием позиции 230 пика и основной частоты позиций 235 пиков.
Фиг. 30 иллюстрирует подробную блок-схему генератора 240 целевого спектра, описанного на фиг. 29. Генератор 240 целевого спектра содержит генератор 245 пиков для формирования последовательности 265 импульсов во времени. Формирователь 250 сигналов регулирует частоту последовательности импульсов согласно основной частоте позиций 235 пиков. Кроме того, модуль 255 позиционирования импульсов регулирует фазу последовательности 265 импульсов согласно позиции 230 пика. Другими словами, формирователь 250 сигналов изменяет форму случайной частоты последовательности 265 импульсов таким образом, что частота последовательности импульсов равна основной частоте позиций пиков аудиосигнала 55. Кроме того, модуль 255 позиционирования импульсов сдвигает фазу последовательности импульсов таким образом, что один из пиков последовательности импульсов равен позиции 230 пика. После этого, анализатор 260 спектра формирует фазовый спектр отрегулированной последовательности импульсов, при этом фазовый спектр сигнала временной области является целевым фазовым показателем 85'.
Фиг. 31 показывает принципиальную блок-схему декодера 110' для декодирования аудиосигнала 55. Декодер 110 содержит базовое декодирование 115, сконфигурированное с возможностью декодирования аудиосигнала 25 во временном кадре основной полосы частот, и модуль 120 наложения для наложения набора подполос 95 частот декодированной основной полосы частот, при этом набор подполос частот формирует наложение, на дополнительные подполосы частот во временном кадре, смежные с основной полосой частот, с тем чтобы получать аудиосигнал 32, содержащий частоты, превышающие частоты в основной полосе частот. Кроме того, декодер 110' содержит аудиопроцессор 50' для коррекции фаз подполос частот наложения согласно целевому фазовому показателю.
Согласно дополнительному варианту осуществления, модуль 120 наложения сконфигурирован с возможностью наложения набора подполос 95 частот аудиосигнала 25, при этом набор подполос частот формирует дополнительное наложение, на дополнительные подполосы частот временного кадра, смежные с наложением, и при этом аудиопроцессор 50' сконфигурирован с возможностью коррекции фаз в подполосах частот дополнительного наложения. Альтернативно, модуль 120 наложения сконфигурирован с возможностью наложения скорректированного наложения к дополнительным подполосам частот временного кадра, смежным с наложением.
Дополнительный вариант осуществления относится к декодеру для декодирования аудиосигнала, содержащего переходную часть, при этом аудиопроцессор 50' сконфигурирован с возможностью корректировать фазу переходной части. Обработка переходных частей описывается другими словами в разделе 8.4. Следовательно, декодер 110 содержит дополнительный аудиопроцессор 50' для приема дополнительной производной фазы частоты и коррекции переходных частей в аудиосигнале 32 с использованием принимаемой производной фазы или частоты. Кроме того, следует отметить, что декодер 110' по фиг. 31 является аналогичным декодеру 110 по фиг. 19, так что описание относительно основных элементов является взаимозаменяемым в случаях, не связанных с различиями в аудиопроцессорах 50 и 50'.
Фиг. 32 показывает кодер 155' для кодирования аудиосигнала 55. Кодер 155' содержит базовый кодер 160, анализатор 175' основной частоты, модуль 165 извлечения параметров и формирователь 170 выходных сигналов. Базовый кодер 160 сконфигурирован с возможностью базового кодирования аудиосигнала 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала 55. Анализатор 175' основной частоты анализирует позиции 230 пиков в аудиосигнале 55 или фильтрованной по нижним частотам версии аудиосигнала для получения оценки основной частоты позиций 235 пиков в аудиосигнале. Кроме того, модуль 165 извлечения параметров извлекает параметры 190 подполос частот аудиосигнала 55, не включенного в базовый кодированный аудиосигнал 145, и формирователь 170 выходных сигналов формирует выходной сигнал 135, содержащий базовый кодированный аудиосигнал 145, параметры 190, основную частоту позиций 235 пиков и одну из позиций 230 пиков. Согласно вариантам осуществления, формирователь 170 выходных сигналов сконфигурирован с возможностью формировать выходной сигнал 135 в последовательность кадров, при этом каждый кадр содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку основной частоты позиций 235 пиков и позиции 230 пика, где n≥2.
Фиг. 33 показывает вариант осуществления аудиосигнала 135, содержащего базовый кодированный аудиосигнал 145, содержащий сокращенное число подполос частот относительно исходного аудиосигнала 55, параметр 190, представляющий подполосы частот аудиосигнала, не включенные в базовый кодированный аудиосигнал, оценку основной частоты позиций 235 пиков и оценку 230 позиций пиков аудиосигнала 55. Альтернативно, аудиосигнал 135 формируется в последовательность кадров, при этом каждый кадр содержит базовый кодированный аудиосигнал 145, параметры 190, и при этом только каждый n-ый кадр содержит оценку основной частоты позиций 235 пиков и позиции 230 пика, где n≥2. Идея уже описана относительно фиг. 22.
Фиг. 34 показывает способ 3400 для обработки аудиосигнала с помощью аудиопроцессора. Способ 3400 содержит этап 3405 "определение целевого фазового показателя для аудиосигнала во временном кадре с целевым фазовым показателем", этап 3410 "вычисление фазовой ошибки с помощью модуля вычисления фазовых ошибок с использованием фазы аудиосигнала во временном кадре и целевом фазовом показателе" и этап 3415 "коррекция фазы аудиосигнала во временном кадре с фазовой коррекцией с использованием фазовой ошибки".
Фиг. 35 показывает способ 3500 для декодирования аудиосигнала с помощью декодера. Способ 3500 содержит этап 3505 "декодирование аудиосигнала во временном кадре основной полосы частот с помощью базового декодера", этап 3510 "наложение набора подполос частот декодированной основной полосы частот с помощью модуля наложения, при этом набор подполос частот формирует наложение, на дополнительные подполосы частот во временном кадре, смежные с основной полосой частот, с тем чтобы получать аудиосигнал, содержащий частоты, превышающие частоты в основной полосе частот" и этап 3515 "коррекция фаз с подполосами частот первого наложения с помощью аудиопроцессора согласно целевому фазовому показателю".
Фиг. 36 показывает способ 3600 для кодирования аудиосигнала с помощью кодера. Способ 3600 содержит этап 3605 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этап 3610 "анализ аудиосигнала или фильтрованной по нижним частотам версии аудиосигнала с помощью анализатора основной частоты для получения оценки основной частоты позиций пиков в аудиосигнале", этап 3615 "извлечение параметров подполос частот аудиосигнала, не включенного в базовый кодированный аудиосигнал, с помощью модуля извлечения параметров" и этап 3620 "формирование выходного сигнала с помощью формирователя выходных сигналов, содержащего базовый кодированный аудиосигнал, параметры, основную частоту позиций пиков и позицию пика".
Другими словами, предлагаемый алгоритм для коррекции ошибок во временных позициях гармоник работает следующим образом. Во-первых, вычисляется разность между фазовыми спектрами целевого сигнала и SBR-обработанного сигнала (
Figure 00000071
и
Figure 00000072
):
Figure 00000073
, (20a)
что проиллюстрировано на фиг. 37. Фиг. 37 показывает ошибку в фазовом спектре
Figure 00000074
сигнала тромбона в QMF-области с использованием SBR с прямой перезаписью. В этот момент, целевой фазовый спектр предположительно может быть равным целевому фазовому спектру входного сигнала:
Figure 00000075
(20b)
Ниже представлено то, как целевой фазовый спектр может получаться с низкой скоростью передачи битов.
Коррекция вертикальной производной фазы выполняется с использованием двух способов, и конечный скорректированный фазовый спектр получается в качестве их сочетания.
Во-первых, можно видеть, что ошибка является относительно постоянной в частотном наложении, и ошибка перескакивает к новому значению при вводе нового частотного наложения. Это целесообразно, поскольку фаза изменяется с постоянным значением по частоте на всех частотах в исходном сигнале. Ошибка формируется на разделении, и ошибка остается постоянной в наложении. Таким образом, одного значения достаточно для коррекции фазовой ошибки для полного частотного наложения. Кроме того, фазовая ошибка верхних частотных наложений может корректироваться с использованием этого идентичного значения ошибки после умножения на числовой индекс частотного наложения.
Следовательно, круговое среднее значение фазовой ошибки вычисляется для первого частотного наложения:
Figure 00000076
. (21)
Фазовый спектр может корректироваться с его использованием:
Figure 00000077
. (22)
Эта необработанная коррекция приводит к точному результату, если целевой PDF, например, производная фазы
Figure 00000050
по частоте, является точно постоянным на всех частотах. Тем не менее, как можно видеть на фиг. 12, зачастую существует небольшое колебание по частоте в значении. Таким образом, лучшие результаты могут получаться посредством использования усовершенствованной обработки на разделениях во избежание неоднородностей в сформированной PDF. Другими словами, эта коррекция формирует корректные значения для PDF в среднем, но могут быть небольшие неоднородности на частотах разделения частотных наложений. Чтобы исключать их, их применяется способ коррекции. Конечный скорректированный фазовый спектр
Figure 00000078
получается в качестве сочетания двух способов коррекции.
Другой способ коррекции начинается посредством вычисления среднего значения PDF в основной полосе частот:
Figure 00000079
. (23)
Фазовый спектр может корректироваться с использованием этого показателя посредством такого допущения, что фаза изменяется с этим средним значением, т.е.:
Figure 00000080
Figure 00000081
, (24)
где
Figure 00000082
является комбинированным сигналом наложения двух способов коррекции.
Эта коррекция предоставляет хорошее качество на разделениях, но может вызывать уход в PDF к верхним частотам. Во избежание этого, два способа коррекции комбинируются посредством вычисления их взвешенного кругового среднего значения:
Figure 00000083
, (25)
где
Figure 00000084
обозначает способ коррекции (
Figure 00000085
или
Figure 00000086
), и
Figure 00000087
является функцией взвешивания:
Figure 00000088
Figure 00000089
(26a)
Результирующий фазовый спектр
Figure 00000078
не подвержен ни неоднородностям, ни уходу. Ошибка по сравнению с исходным спектром и PDF скорректированного фазового спектра проиллюстрированы на фиг. 38. Фиг. 38a показывает ошибку в фазовом спектре
Figure 00000090
сигнала тромбона в QMF-области с использованием SBR-сигнала с фазовой коррекцией, при этом фиг. 38b показывает соответствующую производную фазы
Figure 00000091
по частоте. Можно видеть, что ошибка значительно меньше, чем без коррекции, и PDF не подвержена существенным неоднородностям. Возникают значительные ошибки в определенных временных кадрах, но эти кадры имеют низкую энергию (см. фиг. 4), так что они имеют незначительный перцепционный эффект. Временные кадры со значительной энергией относительно хорошо корректируются. Можно отметить, что артефакты нескорректированной SBR значительно уменьшаются.
Скорректированный фазовый спектр
Figure 00000092
получается посредством конкатенации скорректированных частотных наложений
Figure 00000078
. Для обеспечения совместимости с режимом горизонтальной коррекции, вертикальная фазовая коррекция может представляться также с использованием матрицы модулятора (см. уравнение 18):
Figure 00000093
. (26b)
8.3. Переключение между различными способами фазовой коррекции
Разделы 8.1 и 8.2 показывают то, SBR-обусловленные фазовые ошибки могут корректироваться посредством применения PDT-коррекции к скрипке и PDF-коррекции к тромбону. Тем не менее, не рассматривается то, как узнавать, какая из коррекций должна применяться к неизвестному сигналу, либо то, должна или нет применяться какая-либо из них. Этот модуль предлагает способ для автоматического выбора направления коррекции. Направление коррекции (горизонтальное/вертикальное) определяется на основе варьирования производных фазы входного сигнала.
Следовательно, на фиг. 39, показан модуль вычисления для определения данных фазовой коррекции для аудиосигнала 55. Модуль 275 определения варьирования определяет варьирование фазы 45 аудиосигнала 55 в режиме первого и второго варьирования. Модуль 280 сравнения варьирования сравнивает первое варьирование 290a, определенное с использованием режима первого варьирования, и второе варьирование 290b, определенное с использованием режима второго варьирования, и модуль вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата модуля сравнения.
Кроме того, модуль 275 определения варьирования может быть сконфигурирован с возможностью определения показателя среднеквадратического отклонения производной фазы по времени (PDT) для множества временных кадров аудиосигнала 55 в качестве варьирования 290a фазы в режиме первого варьирования и определения показателя среднеквадратического отклонения производной фазы по частоте (PDF) для множества подполос частот аудиосигнала 55 в качестве варьирования 290b фазы в режиме второго варьирования. Следовательно, модуль 280 сравнения варьирования сравнивает показатель производной фазы по времени в качестве первого варьирования 290a и показатель производной фазы по частоте в качестве второго варьирования 290b для временных кадров аудиосигнала.
Варианты осуществления показывают модуль 275 определения варьирования для определения кругового среднеквадратического отклонения производной фазы по времени текущего и множества предыдущих кадров аудиосигнала 55 в качестве показателя среднеквадратического отклонения и для определения кругового среднеквадратического отклонения производной фазы по времени текущего и множества будущих кадров аудиосигнала 55 для текущего временного кадра в качестве показателя среднеквадратического отклонения. Кроме того, модуль 275 определения варьирования вычисляет, при определении первого варьирования 290a, минимум обоих круговых среднеквадратических отклонений. В дополнительном варианте осуществления, модуль 275 определения варьирования вычисляет варьирование 290a в режиме первого варьирования в качестве комбинации показателя среднеквадратического отклонения для множества подполос 95 частот во временном кадре 75, чтобы формировать усредненный показатель среднеквадратического отклонения частоты. Модуль 280 сравнения варьирования сконфигурирован с возможностью выполнения комбинации показателей среднеквадратического отклонения посредством вычисления среднего значения с энергетическим взвешиванием показателей среднеквадратического отклонения множества подполос частот с использованием значений амплитуды подполосного сигнала 95 в текущем временном кадре 75 в качестве показателя энергии.
В предпочтительном варианте осуществления, модуль 275 определения варьирования сглаживает усредненный показатель среднеквадратического отклонения, при определении первого варьирования 290a, по текущему, множеству предыдущих и множеству будущих временных кадров. Сглаживание взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров и функции кодирования со взвешиванием. Кроме того, модуль 275 определения варьирования сконфигурирован с возможностью сглаживания показателя среднеквадратического отклонения, при определении второго варьирования 290b по текущему, множеству предыдущих и множеству будущих временных кадров 75, при этом сглаживание взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров 75, и функции кодирования со взвешиванием. Следовательно, модуль 280 сравнения варьирования сравнивает показатель сглаженного среднего среднеквадратического отклонения в качестве первого варьирования 290a, определенного с использованием режима первого варьирования, и сравнивает показатель сглаженного среднеквадратического отклонения в качестве второго варьирования 290b, определенного с использованием режима второго варьирования.
Предпочтительный вариант осуществления проиллюстрирован на фиг. 40. Согласно этому варианту осуществления, модуль 275 определения варьирования содержит два тракта обработки для вычисления первого и второго варьирования. Первое наложение обработки содержит PDT-модуль 300a вычисления для вычисления показателя среднеквадратического отклонения производной фазы 305a по времени из аудиосигнала 55 или фазы аудиосигнала. Модуль 310a вычисления кругового среднеквадратического отклонения определяет первое круговое среднеквадратическое отклонение 315a и второе круговое среднеквадратическое отклонение 315b из показателя среднеквадратического отклонения производной фазы 305a по времени. Первое и второе круговые среднеквадратические отклонения 315a и 315b сравниваются посредством модуля 320 сравнения. Модуль 320 сравнения вычисляет минимум 325 двух показателей кругового среднеквадратического отклонения 315a и 315b. Модуль комбинирования комбинирует минимум 325 по частоте, чтобы формировать показатель 335a среднего среднеквадратического отклонения. Модуль 340a сглаживания сглаживает показатель 335a среднего среднеквадратического отклонения, чтобы формировать показатель 345a сглаженного среднего среднеквадратического отклонения.
Второй тракт обработки содержит PDF-модуль 300b вычисления для вычисления производной фазы 305b по частоте из аудиосигнала 55 или фазы аудиосигнала. Модуль 310b вычисления кругового среднеквадратического отклонения формирует показатели 335b среднеквадратического отклонения производной фазы 305 по частоте. Показатель 305 среднеквадратического отклонения сглаживается посредством модуля 340b сглаживания, чтобы формировать показатель 345b сглаженного среднеквадратического отклонения. Показатели 345a сглаженного среднего среднеквадратического отклонения и показатель 345b сглаженного среднеквадратического отклонения являются первым и вторым варьированием, соответственно. Модуль 280 сравнения варьирования сравнивает первое и второе варьирование, и модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции на основе сравнения первого и второго варьирования.
Дополнительные варианты осуществления показывают модуль 270 вычисления, обрабатывающий три различных режима фазовой коррекции. Блок-схема чертежа показана на фиг. 41. Фиг. 41 показывает модуль 275 определения варьирования, дополнительно определяющий третье варьирование 290c фазы аудиосигнала 55 в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей. Модуль 280 сравнения варьирования сравнивает первое варьирование 290a, определенное с использованием режима первого варьирования, второе варьирование 290b, определенное с использованием режима второго варьирования, и третье варьирование 290c, определенное с использованием третьего варьирования. Следовательно, модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с первым режимом коррекции, вторым режимом коррекции или третьим режимом коррекции, на основе результата сравнения. Для вычисления третьего варьирования 290c в режиме третьего варьирования, модуль 280 сравнения варьирования может быть сконфигурирован с возможностью вычисления мгновенной энергетической оценки текущего временного кадра и усредненной во времени энергетической оценки множества временных кадров 75. Следовательно, модуль 280 сравнения варьирования сконфигурирован с возможностью вычисления отношения мгновенной энергетической оценки и усредненной во времени энергетической оценки и сконфигурирован с возможностью сравнения отношения с заданным пороговым значением, чтобы обнаруживать переходные части во временном кадре 75.
Модуль 280 сравнения варьирования должен определять подходящий режим коррекции на основе трех варьирований. На основе этого решения, модуль 285 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом третьего варьирования, если обнаруживается переходная часть. Кроме того, модуль 85 вычисления корректирующих данных вычисляет данные 295 фазовой коррекции в соответствии с режимом первого варьирования, если отсутствие переходной части обнаруживается, и если первое варьирование 290a, определенное в режиме первого варьирования, меньше или равно второму варьированию 290b, определенному в режиме второго варьирования. Соответственно, данные 295 фазовой коррекции вычисляются в соответствии с режимом второго варьирования, если обнаруживается отсутствие переходной части, и если второе варьирование 290b, определенное в режиме второго варьирования, меньше первого варьирования 290a, определенного в режиме первого варьирования.
Модуль вычисления корректирующих данных дополнительно сконфигурирован с возможностью вычисления данных 295 фазовой коррекции для третьего варьирования 290c для текущего, одного или более предыдущих и одного или более будущих временных кадров. Соответственно, модуль 285 вычисления корректирующих данных сконфигурирован с возможностью вычисления данных 295 фазовой коррекции для режима второго варьирования 290b для текущего, одного или более предыдущих и одного или более будущих временных кадров. Кроме того, модуль 285 вычисления корректирующих данных сконфигурирован с возможностью вычисления корректирующих данных 295 для горизонтальной фазовой коррекции и режима первого варьирования, вычисления корректирующих данных 295 для вертикальной фазовой коррекции в режиме второго варьирования и вычисления корректирующих данных 295 для коррекции переходных частей в режиме третьего варьирования.
Фиг. 42 показывает способ 4200 для определения данных фазовой коррекции из аудиосигнала. Способ 4200 содержит этап 4205 "определение варьирования фазы аудиосигнала с помощью модуля определения варьирования в режиме первого и второго варьирования", этап 4210 "сравнение варьирования, определенного с использованием режима первого и второго варьирования, с помощью модуля сравнения варьирования" и этап 4215 "вычисление фазовой коррекции с помощью модуля вычисления корректирующих данных в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения".
Другими словами, PDT скрипки является сглаженной во времени, тогда как PDF тромбона является сглаженной по частоте. Следовательно, среднеквадратическое отклонение (STD) этих показателей в качестве показателя варьирования может использоваться для того, чтобы выбирать надлежащий способ коррекции. STD производной фазы по времени может вычисляться следующим образом:
Figure 00000094
Figure 00000095
Figure 00000096
, (27)
и STD производной фазы по частоте следующим образом:
Figure 00000097
, (28)
где
Figure 00000098
обозначает вычислительное круговое STD (значения угла потенциально могут быть взвешены посредством энергии во избежание высокого STD вследствие зашумленных низкоэнергетических элементов выборки, или вычисление STD может ограничиваться элементами выборки с достаточной энергией). STD для скрипки и тромбона показаны на фиг. 43a, 43b и фиг. 43c, 43d, соответственно. Фиг. 43a и c показывают среднеквадратическое отклонение производной фазы
Figure 00000099
по времени в QMF-области, при этом фиг. 43b и 43d показывают соответствующее среднеквадратическое отклонение
Figure 00000100
по частоте без фазовой коррекции. Цветовой градиент указывает значения от красного цвета=1 до синего цвета=0. Можно видеть, что STD PDT является более низким для скрипки, тогда как STD PDF является более низким для тромбона (специально для частотно-временных мозаичных фрагментов, которые имеют высокую энергию).
Используемый способ коррекции для каждого временного кадра выбирается на основе того, какое из STD является более низким. Для этого, значения
Figure 00000099
должны комбинироваться по частоте. Объединение выполняется посредством вычисления среднего значения с энергетическим взвешиванием для предварительно заданного частотного диапазона:
Figure 00000101
(29)
Оценки отклонения сглаживаются во времени, чтобы иметь сглаженное переключение и в силу этого исключать потенциальные артефакты. Сглаживание выполняется с использованием взвешивающей функции Ханна, и оно взвешивается посредством энергии временного кадра:
Figure 00000102
, (30)
где
Figure 00000061
является функцией кодирования со взвешиванием, и
Figure 00000103
является суммой
Figure 00000014
по частоте. Соответствующее уравнение используется для сглаживания
Figure 00000100
.
Способ фазовой коррекции определяется посредством сравнения
Figure 00000104
и
Figure 00000105
. Способ по умолчанию представляет собой PDT-(горизонтальную) коррекцию, а если
Figure 00000106
, PDF-(вертикальная) коррекция применяется для интервала
Figure 00000107
. Если оба из отклонений являются большими, например, превышающими предварительно заданное пороговое значение, ни один из способов коррекции не применяется, и может достигаться экономия по скорости передачи битов.
8.4. Обработка переходных частей: коррекция производной фазы для переходных частей
Сигнал скрипки с аплодисментами, добавленными в середине, представляется на фиг. 44. Амплитуда
Figure 00000014
сигнала скрипки+аплодисментов в QMF-области показана на фиг. 44a, а соответствующий фазовый спектр
Figure 00000015
- на фиг. 44b. Относительно фиг. 44a, цветовой градиент указывает значения амплитуды от красного цвета=0 дБ до синего цвета=-80 дБ. Соответственно, для фиг. 44b, градиент фазы указывает значения фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. Производные фазы по времени и по частоте представляются на фиг. 45. Производная фазы
Figure 00000049
по времени сигнала скрипки+аплодисментов в QMF-области показана на фиг. 45a, а соответствующая производная фазы
Figure 00000050
по частоте - на фиг. 45b. Цветовой градиент указывает значения фазы от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. Можно видеть, что PDT является зашумленной для аплодисментов, но PDF является в некоторой степени сглаженной, по меньшей мере, на высоких частотах. Таким образом, PDF-коррекция должна применяться для аплодисментов, чтобы поддерживать их резкость. Тем не менее, способ коррекции, предлагаемый в разделе 8.2, не может работать надлежащим образом с этим сигналом, поскольку звук скрипки возмущает производные на низких частотах. Как результат, фазовый спектр основной полосы частот не отражает высокие частоты, и в силу этого фазовая коррекция частотных наложений с использованием одного значения не может работать. Кроме того, обнаружение переходных частей на основе варьирования PDF-значения (см. раздел 8.3) является затруднительным вследствие зашумленных PDF-значений на низких частотах.
Решение проблемы является несложным. Во-первых, переходные части обнаруживаются с использованием простого способа на основе энергии. Мгновенная энергия средних/высоких частот сравнивается со сглаженной энергетической оценкой. Мгновенная энергия средних/высоких частот вычисляется следующим образом:
Figure 00000108
(31)
Сглаживание выполняется с использованием IIR-фильтра первого порядка:
Figure 00000109
. (32)
Если
Figure 00000110
, переходная часть обнаружена. Пороговое значение
Figure 00000111
может подстраиваться, чтобы обнаруживать требуемую величину переходных частей. Например, может использоваться
Figure 00000112
. Обнаруженный кадр не выбирается непосредственно в качестве переходного кадра. Вместо этого, выполняется поиск локального энергетического максимума из его окружения. В текущей реализации, выбранный интервал составляет
Figure 00000113
. Временной кадр с максимальной энергией в этом интервале выбирается в качестве переходной части.
В теории, режим вертикальной коррекции также может применяться для переходных частей. Тем не менее, в случае переходных частей, фазовый спектр основной полосы частот зачастую не отражает высокие частоты. Это может приводить к опережающим и запаздывающим эхо в обработанном сигнале. Таким образом, немного модифицированная обработка предлагается для переходных частей.
Средний PDF переходной части на высоких частотах вычисляется:
Figure 00000114
. (33)
Фазовый спектр для переходного кадра синтезируется с использованием этого постоянного изменения фазы, как указано в уравнении 24, но
Figure 00000115
заменен посредством
Figure 00000116
. Идентичная коррекция применяется к временным кадрам в интервале
Figure 00000117
(
Figure 00000017
суммируется с PDF кадров
Figure 00000118
и
Figure 00000119
вследствие свойств QMF, см. раздел 6). Эта коррекция уже формирует переходную часть для подходящей позиции, но форма переходной части не обязательно является желательной, и значительные боковые лепестки (т.е. дополнительные переходные части) могут присутствовать вследствие значительного временного перекрытия QMF-кадров. Следовательно, абсолютный фазовый угол также должен быть корректным. Абсолютный угол корректируется посредством вычисления средней ошибки между синтезированным и исходным фазовым спектром. Коррекция выполняется отдельно для каждого временного кадра переходной части.
Результат коррекции переходных частей представляется на фиг. 46. Показана производная фазы
Figure 00000049
по времени сигнала скрипки+аплодисментов в QMF-области с использованием SBR с фазовой коррекцией. Фиг. 47b показывает соответствующую производную фазы
Figure 00000050
по частоте. С другой стороны, цветовой градиент указывает значения фазы от красного цвета=
Figure 00000120
до синего цвета=
Figure 00000018
. Может быть такое восприятие, что аплодисменты с фазовой коррекцией имеют резкость, идентичную резкости исходного сигнала, хотя разность по сравнению с прямой перезаписью не является большой. Следовательно, коррекция переходных частей не обязательно требуется во всех случаях, когда обеспечивается только прямая перезапись. Наоборот, если обеспечивается PDT-коррекция, важно иметь обработку переходных частей, поскольку PDT-коррекция в противном случае сильно размывает переходные части.
9. Сжатие корректирующих данных
Раздел 8 показывает то, что фазовые ошибки могут корректироваться, но соответствующая скорость передачи битов для коррекции вообще не рассматривается. Этот раздел предлагает способы для того, как представлять корректирующие данные с низкой скоростью передачи битов.
9.1. Сжатие корректирующих PDT-данных: создание целевого спектра для горизонтальной коррекции
Предусмотрено множество возможных параметров, которые могут передаваться, чтобы обеспечивать PDT-коррекцию. Тем не менее, поскольку
Figure 00000066
сглаживается во времени, он представляет собой потенциальный возможный вариант для передачи с низкой скоростью передачи битов.
Во-первых, поясняется соответствующая скорость обновления для параметров. Значение обновляется только для каждых N кадров и линейно интерполируется в промежутках. Интервал обновления для хорошего качества составляет приблизительно 40 мс. Для определенных сигналов, преимущественным является немного меньше, а для других - немного больше. Формальные тесты на основе прослушивания должны быть полезными для оценки оптимальной скорости обновления. Тем не менее, обнаруживается, что относительно длительный интервал обновления является приемлемым.
Также изучена надлежащая угловая точность для
Figure 00000066
. 6 битов (64 возможных значений угла) достаточно для перцепционно хорошего качества. Кроме того, тестируется передача только изменения значения. Зачастую обнаруживается, что значения изменяются очень незначительно, так что неравномерное квантование может применяться, чтобы иметь большую точность для небольших изменений. При использовании этого подхода, выявлено, что 4 бита (16 возможных значений угла) предоставляют хорошее качество.
Последним аспектом для рассмотрения является соответствующая спектральная точность. Как можно видеть на фиг. 17, множество полос частот, по-видимому, совместно используют примерно идентичное значение. Таким образом, одно значение может, вероятно, использоваться для того, чтобы представлять несколько полос частот. Помимо этого, на высоких частотах предусмотрено несколько гармоник внутри одной полосы частот, так что, вероятно, требуется меньшая точность. Тем не менее, выявлен другой, потенциально лучший подход, так что эти варианты тщательно не анализируются. Далее поясняется предлагаемый более эффективный подход.
9.1.1. Использование оценки частоты для сжатия корректирующих PDT-данных
Как пояснено в разделе 5, производная фазы по времени по существу означает частоту сформированной синусоиды. PDT применяемого 64-полосного комплексного QMF могут преобразовываться в частоты с использованием следующего уравнения:
Figure 00000121
(34)
Сформированные частоты находятся внутри интервала
Figure 00000122
, где
Figure 00000123
является центральной частотой полосы
Figure 00000009
частот, и
Figure 00000012
составляет 375 Гц. Результат показан на фиг. 47 в частотно-временном представлении частот QMF-полос
Figure 00000124
частот для сигнала скрипки. Можно видеть, что частоты, по-видимому, соответствуют кратным основной частоты тона, и гармоники в силу этого разнесены по частоте посредством основной частоты. Помимо этого, вибрато, по-видимому, вызывает частотную модуляцию.
Идентичный график может применяться к прямой перезаписи
Figure 00000125
и к скорректированной
Figure 00000126
SBR (см. фиг. 48a и фиг. 48b, соответственно). Фиг. 48a показывает частотно-временное представление частот QMF-полос частот SBR-сигнала
Figure 00000125
с прямой перезаписью по сравнению с исходным сигналом
Figure 00000124
, показанным на фиг. 47. Фиг. 48b показывает соответствующий график для скорректированного SBR-сигнала
Figure 00000126
. На графиках по фиг. 48a и фиг. 48b, исходный сигнал нарисован в синем цвете, при этом SBR с прямой перезаписью и скорректированные SBR-сигналы нарисованы в красном цвете. Негармоничность SBR с прямой перезаписью может наблюдаться на чертеже, в частности, в начале и конце выборки. Помимо этого, можно видеть, что глубина частотной модуляции явно меньше глубины частотной модуляции исходного сигнала. Наоборот, в случае скорректированной SBR, частоты гармоник, по-видимому, соответствуют частотам исходного сигнала. Помимо этого, обнаруживается, что глубина модуляции является корректной. Таким образом, этот график, по-видимому, подтверждает достоверность предлагаемого способа коррекции. Следовательно, после этого он концентрируется на фактическом сжатии корректирующих данных.
Поскольку частоты
Figure 00000124
разнесены на одинаковую величину, частоты всех полос частот могут быть аппроксимированы, если разнесение между частотами оценивается и передается. В случае гармонических сигналов, разнесение должно быть равно основной частоте тона. Таким образом, только одно значение должно передаваться для представления всех полос частот. В случае более нерегулярных сигналов, большее число значений необходимо для описания характера изменения гармоник. Например, разнесение гармоник немного увеличивается в случае тона фортепьяно [14]. Для простоты, далее предполагается, что гармоники разнесены на одинаковую величину. Тем не менее, это не ограничивает общность описанной аудиообработки.
Таким образом, основная частота тона оценивается для оценки частот гармоник. Оценка основной частоты является широко изучаемой темой (например, см. [14]). Следовательно, реализован простой способ оценки для того, чтобы формировать данные, используемые для последующей этапов обработки. Способ по существу вычисляет разнесения гармоник и комбинирует результат согласно некоторой эвристике (сколько энергии, насколько стабильным является значение по частоте и по времени и т.д.). В любом случае, результат представляет собой оценку основной частоты для каждого временного кадра
Figure 00000127
. Другими словами, производная фазы по времени связана с частотой соответствующего QMF-элемента выборки. Помимо этого, артефакты, связанные с ошибками в PDT, являются воспринимаемыми главным образом с гармоническими сигналами. Таким образом, следует предполагать, что целевая PDT (см. уравнение 16a) может оцениваться с использованием оценки основной частоты
Figure 00000128
. Оценка основной частоты является широко изучаемой темой, и доступно множество надежных способов для получения надежных оценок основной частоты.
Здесь, предполагается основная частота
Figure 00000127
, известная декодеру до выполнения BWE и использования изобретаемой фазовой коррекции в BWE. Следовательно, преимущественно, если стадия кодирования передает оцененную основную частоту
Figure 00000127
. Помимо этого, для повышенной эффективности кодирования, значение может обновляться, например, только каждый 20-й временной кадр (соответствующий интервалу в -27 мс) и интерполироваться в промежутке.
Альтернативно, основная частота может оцениваться на стадии кодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.
Обработка декодера начинается посредством получения оценки
Figure 00000127
основной частоты для каждого временного кадра.
Частоты гармоник могут получаться посредством их умножения на индексный вектор:
Figure 00000129
(35)
Результат проиллюстрирован на фиг. 49. Фиг. 49 показывает частотно-временное представление оцененных частот гармоник
Figure 00000130
по сравнению с частотами QMF-полос частот исходного сигнала
Figure 00000124
. С другой стороны, синий цвет указывает исходный сигнал, а красный - оцененный сигнал. Частоты оцененных гармоник достаточно хорошо совпадают с исходным сигналом. Эти частоты могут рассматриваться в качестве "разрешенных" частот. Если алгоритм формирует эти частоты, должны исключаться связанные с негармоничностью артефакты.
Передаваемый параметр алгоритма является основной частотой
Figure 00000127
. Для повышенной эффективности кодирования, значение обновляется только для каждого 20-го временного кадра (т.е. каждые 27 мс). Обнаруживается, что это значение предоставляет хорошее перцепционное качество на основе неформального прослушивания. Тем не менее, формальные тесты на основе прослушивания являются полезными для оценки более оптимального значения для скорости обновления.
Следующий этап алгоритма заключается в том, чтобы находить подходящее значение для каждой полосы частот. Это выполняется посредством выбора значения
Figure 00000130
, которое является ближайшим к центральной частоте каждой полосы
Figure 00000123
частот, чтобы отражать эту полосу частот. Если ближайшее значение находится за пределами возможных значений полосы (
Figure 00000131
) частот, используется граничное значение полосы частот. Результирующая матрица
Figure 00000132
содержит частоту для каждого частотно-временного мозаичного фрагмента.
Конечный этап алгоритма сжатия корректирующих данных заключается в том, чтобы преобразовывать данные по частоте обратно в PDT-данные:
Figure 00000133
, (36)
где mod() обозначает оператор по модулю. Фактический алгоритм коррекции работает так, как представлено в разделе 8.1.
Figure 00000134
в уравнении 16a заменен посредством
Figure 00000135
в качестве целевой PDT, и уравнения 17-19 используются, аналогично разделу 8.1. Результат алгоритма коррекции со сжатыми корректирующими данными показан на фиг 50. Фиг. 50 показывает ошибку в PDT
Figure 00000066
сигнала скрипки в QMF-области скорректированной SBR со сжатыми корректирующими данными. Фиг. 50b показывает соответствующую производную фазы
Figure 00000069
по времени. Цветовые градиенты указывают значения от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. PDT-значения соответствуют PDT-значениям исходного сигнала с точностью, аналогичной точности способа коррекции без сжатия данных (см. фиг. 18). Таким образом, алгоритм сжатия является допустимым. Воспринимаемое качество с и без сжатия корректирующих данных является аналогичным.
Варианты осуществления используют большую точность для низких частот и меньшую для высоких частот, с использованием всего 12 битов для каждого значения. Результирующая скорость передачи битов составляет приблизительно 0,5 Кбит/с (без сжатия, к примеру, энтропийного кодирования). Эта точность формирует равное воспринимаемое качество в качестве отсутствия квантования. Тем не менее, вероятно, может использоваться значительно более низкая скорость передачи битов, во многих случаях формирующая достаточно хорошее воспринимаемое качество.
Один вариант для схем с низкой скоростью передачи битов заключается в том, чтобы оценивать основную частоту в фазе декодирования с использованием передаваемого сигнала. В этом случае, значения не должны передаваться. Другой вариант заключается в том, чтобы оценивать основную частоту с использованием передаваемого сигнала, сравнивать ее с оценкой, полученной с использованием широкополосного сигнала, и передавать только разность. Можно предполагать, что эта разность может быть представлена с использованием очень низкой скорости передачи битов.
9.2. Сжатие корректирующих PDF-данных
Как пояснено в разделе 8.2, соответствующие данные для PDF-коррекции являются средней фазовой ошибкой первого частотного наложения
Figure 00000136
. Коррекция может выполняться для всех частотных наложений с помощью сведений по этому значению, так что требуется передача только одного значения для каждого временного кадра. Тем не менее, передача даже одного значения для каждого временного кадра может давать в результате слишком высокую скорость передачи битов.
При проверке фиг. 12 для тромбона, можно видеть, что PDF имеет относительно постоянное значение по частоте, и идентичное значение присутствует для нескольких временных кадров. Значение является постоянным во времени при условии, что идентичная переходная часть доминирует над энергией окна кодирования со взвешиванием для QMF-анализа. Когда новая переходная часть начинает быть доминирующей, новое значение присутствует. Обнаруживается, что изменение угла между этими PDF-значениями является идентичным для различных переходных частей. Это целесообразно, поскольку PDF управляет временным местоположением переходной части, и если сигнал имеет постоянную основную частоту, разнесение между переходными частями должно быть постоянным.
Следовательно, PDF (или местоположение переходной части) может передаваться только разреженно во времени, и характер изменения PDF в промежутке между этими моментами времени может оцениваться с использованием сведений по основной частоте. PDF-коррекция может выполняться с использованием этой информации. Эта идея фактически является параллельной с PDT-коррекцией, при которой предполагается, что частоты гармоник равномерно разнесены. Здесь используется идентичная идея, но вместо этого предполагается, что временные местоположения переходных частей равномерно разнесены. Ниже предлагается способ, который основан на обнаружении позиций пиков в форме сигнала, и с использованием этой информации создается опорный спектр для фазовой коррекции.
9.2.1. Использование обнаружения пиков для сжатия корректирующих PDF-данных: создание целевого спектра для вертикальной коррекции
Позиции пиков должны оцениваться для выполнения успешной PDF-коррекции. Одно решение заключается в том, чтобы вычислять позиции пиков с использованием PDF-значения, аналогично уравнению 34, и оценивать позиции пиков в промежутке с использованием оцененной основной частоты. Тем не менее, этот подход требует относительно стабильной оценки основной частоты. Варианты осуществления показывают простой, быстрый в реализации альтернативный способ, который показывает то, что предлагаемый подход на основе сжатия является возможным.
Представление во временной области сигнала тромбона показано на фиг. 51. Фиг. 51a показывает форму сигнала для сигнала тромбона в представлении во временной области. Фиг. 51b показывает соответствующий сигнал временной области, который содержит только оцененные пики, при этом позиции пиков получены с использованием передаваемых метаданных. Сигнал на фиг. 51b представляет собой описанную последовательность 265 импульсов, например, относительно фиг. 30. Алгоритм начинается посредством анализа позиций пиков в форме сигнала. Это выполняется посредством поиска локальных максимумов. Каждые 27 мс (т.е. для каждых 20 QMF-кадров) передается местоположение пика, ближайшего к центральной точке кадра. Между передаваемыми местоположениями пиков, предполагается, что пики равномерно разнесены во времени. Таким образом, посредством сведений по основной частоте, могут оцениваться местоположения пиков. В этом варианте осуществления, передается определенное число обнаруженных пиков (следует отметить, что это требует успешного обнаружения всех пиков; оценка на основе основной частоты, вероятно, должна давать в результате более надежные результаты). Результирующая скорость передачи битов составляет приблизительно 0,5 Кбит/с (без сжатия, к примеру, энтропийного кодирования), что состоит из передачи местоположения пика для каждых 27 мс с использованием 9 битов и передачи числа переходных частей в промежутке с использованием 4 битов. Выявлено, что эта точность формирует равное воспринимаемое качество в качестве отсутствия квантования. Тем не менее, вероятно, может использоваться значительно более низкая скорость передачи битов, во многих случаях формирующая достаточно хорошее воспринимаемое качество.
С использованием передаваемых метаданных создается сигнал временной области, который состоит из импульсов в позициях оцененных пиков (см. фиг. 51b). QMF-анализ выполняется для этого сигнала, и вычисляется фазовый спектр
Figure 00000137
. Фактическая PDF-коррекция выполняется по-другому, как предложено в разделе 8.2, но
Figure 00000138
в уравнении 20a заменен посредством
Figure 00000137
.
Форма сигнала для сигналов, имеющих вертикальную фазовую когерентность, типично является пиковой и напоминает последовательность импульсов. Таким образом, следует предполагать, что целевой фазовый спектр для вертикальной коррекции может оцениваться посредством моделирования его в качестве фазового спектра последовательности импульсов, которая имеет пики в соответствующих позициях и соответствующей основной частоте.
Позиция, ближайшая к центру временного кадра, передается, например, для каждого 20-го временного кадра (соответствующего интервалу в -27 мс). Оцененная основная частота, которая передается с равной скоростью, используется для того, чтобы интерполировать позиции пиков в промежутке между передаваемыми позициями.
Альтернативно, основная частота и позиции пиков могут оцениваться на стадии декодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.
Обработка декодера начинается посредством получения оценки
Figure 00000127
основной частоты для каждого временного кадра, и помимо этого, оцениваются позиции пиков в форме сигнала. Позиции пиков используются для того, чтобы создавать сигнал временной области, который состоит из импульсов в этих позициях. QMF-анализ используется для того, чтобы создавать соответствующий фазовый спектр
Figure 00000137
. Этот оцененный фазовый спектр может использоваться в уравнении 20a в качестве целевого фазового спектра:
Figure 00000139
. (37)
Предлагаемый способ использует стадию кодирования для того, чтобы передавать только оцененные позиции пиков и основные частоты со скоростью обновления, например, в 27 мс. Помимо этого, следует отметить, что ошибки в вертикальной производной фазы являются воспринимаемыми только тогда, когда основная частота является относительно низкой. Таким образом, основная частота может передаваться с относительно низкой скоростью передачи битов.
Результат алгоритма коррекции со сжатыми корректирующими данными показан на фиг 52. Фиг. 52a показывает ошибку в фазовом спектре
Figure 00000090
сигнала тромбона в QMF-области со скорректированной SBR и сжатыми корректирующими данными. Соответственно, фиг. 52b показывает соответствующую производную фазы
Figure 00000091
по частоте. Цветовой градиент указывает значения от красного цвета=
Figure 00000017
до синего цвета=
Figure 00000018
. PDF-значения соответствуют PDF-значениям исходного сигнала с точностью, аналогичной точности способа коррекции без сжатия данных (см. фиг. 13). Таким образом, алгоритм сжатия является допустимым. Воспринимаемое качество с и без сжатия корректирующих данных является аналогичным.
9.3. Сжатие данных обработки переходных частей
Поскольку переходные части предположительно могут быть относительно разреженными, можно предполагать, что эти данные могут непосредственно передаваться. Варианты осуществления показывают передачу шести значений в расчете на переходную часть: одно значение для средней PDF и пять значений для ошибок в абсолютном фазовом угле (одно значение для каждого временного кадра в интервале
Figure 00000117
). Альтернатива заключается в том, чтобы передавать позицию переходной части (т.е. одно значение) и оценивать целевой фазовый спектр
Figure 00000140
, как и в случае вертикальной коррекции.
Если скорость передачи битов должна сжиматься для переходных частей, может использоваться аналогичный подход, что и для PDF-коррекции (см. раздел 9.2). Может передаваться просто позиция переходной части, т.е. одно значение. Целевой фазовый спектр и целевой PDF могут получаться с использованием этого значения местоположения, аналогично разделу 9.2.
Альтернативно, позиция переходной части может оцениваться на стадии декодирования, и информация не должна передаваться. Тем не менее, лучшие оценки могут ожидаться, если оценка выполняется с исходным сигналом на стадии кодирования.
Все вышеописанные варианты осуществления могут рассматриваться отдельно от других вариантов осуществления или в комбинации вариантов осуществления. Следовательно, фиг. 53-57 представляют кодер и декодер, комбинирующие некоторые вышеописанные варианты осуществления.
Фиг. 53 показывает декодер 110'' для декодирования аудиосигнала. Декодер 110'' содержит генератор 65a первого целевого спектра, первый фазовый корректор 70a и модуль 350 вычисления подполосных аудиосигналов. Генератор 65a первого целевого спектра, также называемый модулем определения целевых фазовых показателей, формирует целевой спектр 85a'' для первого временного кадра подполосного сигнала для аудиосигнала 32 с использованием первых корректирующих данных 295a. Первый фазовый корректор 70a корректирует фазу 45 подполосного сигнала в первом временном кадре аудиосигнала 32, определенную с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала 32 и целевым спектром 85''. Модуль 350 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал 355 для первого временного кадра с использованием скорректированной фазы 91a для временного кадра. Альтернативно, модуль 350 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал 355 для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала 85a'' во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции. Фиг. 53 дополнительно показывает анализатор 360, который необязательно анализирует аудиосигнал 32 относительно амплитуды 47 и фазы 45. Дополнительный алгоритм фазовой коррекции может выполняться во втором фазовом корректоре 70b или третьем фазовом корректоре 70c. Эти дополнительные фазовые корректоры проиллюстрированы относительно фиг. 54. Модуль 250 вычисления подполосных аудиосигналов вычисляет подполосный аудиосигнал для первого временного кадра с использованием скорректированной фазы 91 для первого временного кадра и значения 47 амплитуды подполосного аудиосигнала первого временного кадра, при этом значение 47 амплитуды является амплитудой аудиосигнала 32 в первом временном кадре или обработанной амплитудой аудиосигнала 35 в первом временном кадре.
Фиг. 54 показывает дополнительный вариант осуществления декодера 110''. Следовательно, декодер 110'' содержит генератор 65b второго целевого спектра, при этом генератор 65b второго целевого спектра формирует целевой спектр 85b'' для второго временного кадра подполосы частот аудиосигнала 32 с использованием вторых корректирующих данных 295b. Детектор 110'' дополнительно содержит второй фазовый корректор 70b для коррекции фазы 45 подполосы частот во временном кадре аудиосигнала 32, определенной с помощью второго алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем временного кадра подполосы частот аудиосигнала и целевым спектром 85b''.
Соответственно, декодер 110'' содержит генератор 65c третьего целевого спектра, при этом генератор 65c третьего целевого спектра формирует целевой спектр для третьего временного кадра подполосы частот аудиосигнала 32 с использованием третьих корректирующих данных 295c. Кроме того, декодер 110'' содержит третий фазовый корректор 70c для коррекции фазы 45 подполосного сигнала и временного кадра аудиосигнала 32, определенной с помощью третьего алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем временного кадра подполосы частот аудиосигнала и целевым спектром 85c. Модуль 350 вычисления подполосных аудиосигналов может вычислять подполосный аудиосигнал для третьего временного кадра, отличающегося от первого и второго временных кадров, с использованием фазовой коррекции третьего фазового корректора.
Согласно варианту осуществления, первый фазовый корректор 70a сконфигурирован с возможностью сохранения подполосного сигнала 91a с фазовой коррекцией предыдущего временного кадра аудиосигнала или приема подполосного сигнала с фазовой коррекцией предыдущего временного кадра 375 аудиосигнала из второго фазового корректора 70b третьего фазового корректора 70c. Кроме того, первый фазовый корректор 70a корректирует фазу 45 аудиосигнала 32 в текущем временном кадре подполосного аудиосигнала на основе сохраненного или принимаемого подполосного сигнала с фазовой коррекцией предыдущего временного кадра 91a, 375.
Дополнительные варианты осуществления показывают первый фазовый корректор 70a, выполняющий горизонтальную фазовую коррекцию, второй фазовый корректор 70b, выполняющий вертикальную фазовую коррекцию, и третий фазовый корректор 70c, выполняющий фазовую коррекцию для переходных частей.
С другой точки зрения фиг. 54 показывает блок-схему стадии декодирования в алгоритме фазовой коррекции. Ввод в обработку представляет собой BWE-сигнал в частотно-временной области и метаданные. С другой стороны, в практических вариантах применения, изобретаемая коррекция производной фазы является предпочтительной для того, чтобы совместно использовать гребенку фильтров или преобразование существующей BWE-схемы. В текущем примере, она представляет собой QMF-область, используемую в SBR. Первый демультиплексор (не проиллюстрирован) извлекает корректирующие данные производной фазы из потока битов перцепционного кодека с поддержкой BWE, который улучшается посредством изобретаемой коррекции.
Второй демультиплексор 130 (демультиплексор) сначала разделяет принимаемые метаданные 135 на активирующие данные 365 и корректирующие данные 295a-c для различных режимов коррекции. На основе активирующих данных, вычисление целевого спектра активируется для правильного режима коррекции (другие могут быть деактивированы). С использованием целевого спектра, фазовая коррекция выполняется в принимаемый сигнал BWE с использованием требуемого режима коррекции. Следует отметить, что поскольку горизонтальная коррекция 70a выполняется рекурсивно (другими словами: в зависимости от предыдущих кадров сигналов), она принимает предыдущие матрицы коррекции также из других режимов 70b,c коррекции. В завершение, скорректированный сигнал или необработанный сигнала задается в качестве вывода на основе активирующих данных.
После коррекции данных по фазе, на последующих стадиях продолжается базовый BWE-синтез, в случае текущего примера SBR-синтез. Могут существовать варьирования, в которых конкретно фазовая коррекция вставляется в последовательность сигналов для BWE-синтеза. Предпочтительно, коррекция производной фазы выполняется в качестве начального регулирования для необработанных спектральных наложений, имеющих фазы
Figure 00000141
, и все дополнительные этапы BWE-обработки или регулирования (в SBR, они могут представлять собой добавление шума, обратную фильтрацию, пропущенные синусоиды и т.д.) выполняются на последующих стадиях для скорректированных фаз
Figure 00000142
.
Фиг. 55 показывает дополнительный вариант осуществления декодера 110''. Согласно этому варианту осуществления, декодер 110'' содержит базовый декодер 115, модуль 120 наложения, синтезатор 100 и блок A, который представляет собой декодер 110'' согласно предыдущим вариантам осуществления, показанный на фиг. 54. Базовый декодер 115 сконфигурирован с возможностью декодирования аудиосигнала 25 во временном кадре с сокращенным числом подполос частот относительно аудиосигнала 55. Модуль 120 наложения накладывает набор подполос частот базового декодированного аудиосигнала 25 с сокращенным числом подполос частот, при этом набор подполос частот формирует первое наложение, на дополнительные подполосы частот во временном кадре, смежные с сокращенным числом подполос частот, с тем чтобы получать аудиосигнал 32 с нормальным числом подполос частот. Процессор 125' амплитуд обрабатывает значения амплитуды подполосного аудиосигнала 355 во временном кадре. Согласно предыдущим декодерам 110 и 110', процессор амплитуд может представлять собой модуль 125 применения параметров расширения полосы пропускания.
Могут рассматриваться множество других вариантов осуществления, в которых блоки процессора сигналов переключаются. Например, процессор 125' амплитуд и блок A могут переставляться. Следовательно, блок A работает для восстановленного аудиосигнала 35, в котором значения амплитуды наложений уже скорректированы. Альтернативно, модуль 350 вычисления подполосных аудиосигналов может быть расположен после процессора 125' амплитуд, чтобы формировать скорректированный аудиосигнал 355 из части со скорректированной фазой и со скорректированной амплитудой аудиосигнала.
Кроме того, декодер 110'' содержит синтезатор 100 для синтезирования аудиосигнала со скорректированной амплитудой и фазой, чтобы получать частотно-комбинированный обработанный аудиосигнал 90. Необязательно, поскольку ни коррекция амплитуды, ни фазовая коррекция не применяются к базовому декодированному аудиосигналу 25, упомянутый аудиосигнал может передаваться непосредственно в синтезатор 100. Любой необязательный блок обработки, применяемый в одном из вышеописанных декодеров 110 или 110', также может применяться в декодере 110''.
Фиг. 56 показывает кодер 155'' для кодирования аудиосигнала 55. Кодер 155'' содержит модуль 380 определения фазы, соединенный с модулем 270 вычисления, базовым кодером 160, модулем 165 извлечения параметров и формирователем 170 выходных сигналов. Модуль 380 определения фазы определяет фазу 45 аудиосигнала 55, при этом модуль 270 вычисления определяет данные 295 фазовой коррекции для аудиосигнала 55 на основе определенной фазы 45 из аудиосигнала 55. Базовый кодер 160 подвергает базовому кодированию аудиосигнал 55, чтобы получать базовый кодированный аудиосигнал 145, имеющий сокращенное число подполос частот относительно аудиосигнала 55. Модуль 165 извлечения параметров извлекает параметры 190 из аудиосигнала 55 для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал. Формирователь 170 выходных сигналов формирует выходной сигнал 135, содержащий параметры 190, базовый кодированный аудиосигнал 145 и данные 295' фазовой коррекции. Необязательно, кодер 155'' содержит фильтр 180 нижних частот перед базовым кодированием аудиосигнала 55 и фильтр 185 верхних частот перед извлечением параметров 190 из аудиосигнала 55. Альтернативно, вместо фильтрации нижних или верхних частот аудиосигнала 55, может использоваться алгоритм заполнения интервалов отсутствия сигнала, в котором базовый кодер 160 подвергает базовому кодированию сокращенное число подполос частот, при этом, по меньшей мере, одна подполоса частот в наборе подполос частот не подвергнута базовому кодированию. Кроме того, модуль извлечения параметров извлекает параметры 190, по меньшей мере, из одной подполосы частот, не кодированной с помощью базового кодера 160.
Согласно вариантам осуществления, модуль 270 вычисления содержит набор модулей 285a-c вычисления корректирующих данных для коррекции фазовой коррекции в соответствии с режимом первого варьирования, режимом второго варьирования или режимом третьего варьирования. Кроме того, модуль 270 вычисления определяет активирующие данные 365 для активации одного модуля вычисления корректирующих данных из набора модулей 285a-c вычисления корректирующих данных. Формирователь 170 выходных сигналов формирует выходной сигнал, содержащий активирующие данные, параметры, базовый кодированный аудиосигнал и данные фазовой коррекции.
Фиг. 57 показывает альтернативную реализацию модуля 270 вычисления, который может использоваться в кодере 155'', показанном на фиг. 56. Модуль 385 вычисления режима коррекции содержит модуль 275 определения варьирования и модуль 280 сравнения варьирования. Активирующие данные 365 являются результатом сравнения различных варьирований. Кроме того, активирующие данные 365 активируют один из модулей 185a-c вычисления корректирующих данных согласно определенному варьированию. Вычисленные корректирующие данные 295a, 295b или 295c могут быть вводом формирователя 170 выходных сигналов кодера 155'' и, следовательно, частью выходного сигнала 135.
Варианты осуществления показывают модуль 270 вычисления, содержащий формирователь 390 метаданных, который формирует поток 295' метаданных, содержащий вычисленные корректирующие данные 295a, 295b или 295c и активирующие данные 365. Активирующие данные 365 могут передаваться в декодер, если непосредственно корректирующие данные не содержат достаточную информацию текущего режима коррекции. Достаточная информация, например, может быть числом битов, используемых для того, чтобы представлять корректирующие данные, которые отличаются для корректирующих данных 295a, корректирующих данных 295b и корректирующих данных 295c. Кроме того, формирователь 170 выходных сигналов дополнительно может использовать активирующие данные 365, так что формирователь 390 метаданных можно игнорироваться.
С другой точки зрения, блок-схема по фиг. 57 показывает стадию кодирования в алгоритме фазовой коррекции. Ввод в обработку представляет собой исходный аудиосигнал 55 и частотно-временную область. В практических вариантах применения, изобретаемая коррекция производной фазы является предпочтительной для того, чтобы совместно использовать гребенку фильтров или преобразование существующей BWE-схемы. В текущем примере, она представляет собой QMF-область, используемую в SBR.
Блок вычисления режима коррекции сначала вычисляет режим коррекции, который применяется для каждого временного кадра. На основе активирующих данных 365, вычисление корректирующих данных 295a-c активируется в правильном режиме коррекции (другие могут быть деактивированы). В завершение, мультиплексор (мультиплексор) комбинирует активирующие данные и корректирующие данные из различных режимов коррекции.
Дополнительный мультиплексор (не проиллюстрирован) объединяет корректирующие данные производной фазы в поток битов BWE и перцепционного кодера, который улучшается посредством изобретаемой коррекции.
Фиг. 58 показывает способ 5800 для декодирования аудиосигнала. Способ 5800 содержит этап 5805 "формирование целевого спектра для первого временного кадра подполосного сигнала для аудиосигнала с помощью генератора первого целевого спектра с использованием первых корректирующих данных", этап 5810 "коррекция фазы подполосного сигнала в первом временном кадре аудиосигнала с помощью первого фазового корректора, определенной с помощью алгоритма фазовой коррекции, при этом коррекция выполняется посредством уменьшения разности между показателем подполосного сигнала в первом временном кадре аудиосигнала и целевым спектром и этап 5815 "вычисление подполосного аудиосигнала для первого временного кадра с помощью модуля вычисления подполосных аудиосигналов с использованием скорректированной фазы временного кадра и вычисление подполосных аудиосигналов для второго временного кадра, отличающегося от первого временного кадра, с использованием показателя подполосного сигнала во втором временном кадре или с использованием вычисления скорректированной фазы в соответствии с дополнительным алгоритмом фазовой коррекции, отличающимся от алгоритма фазовой коррекции".
Фиг. 59 показывает способ 5900 для кодирования аудиосигнала. Способ 5900 содержит этап 5905 "определение фазы аудиосигнала с помощью модуля определения фазы", этап 5910 "определение данных фазовой коррекции для аудиосигнала с помощью модуля вычисления на основе определенной фазы аудиосигнала", этап 5915 "базовое кодирование аудиосигнала с помощью базового кодера, с тем чтобы получать базовый кодированный аудиосигнал, имеющий сокращенное число подполос частот относительно аудиосигнала", этап 5920 "извлечение параметров из аудиосигнала с помощью модуля извлечения параметров для получения представления параметров низкого разрешения для второго набора подполос частот, не включенных в базовый кодированный аудиосигнал" и этап 5925 "формирование выходного сигнала с помощью формирователя выходных сигналов, содержащего параметры, базовый кодированный аудиосигнал и данные фазовой коррекции".
Способы 5800 и 5900, а также вышеописанные способы 2300, 2400, 2500, 3400, 3500, 3600 и 4200, могут реализовываться в компьютерной программе, которая должна выполняться на компьютере.
Следует отметить, что аудиосигнал 55 используется в качестве общего термина для аудиосигнала, в частности, для исходного, т.е. необработанного аудиосигнала, передаваемой части аудиосигнала
Figure 00000143
25, сигнала
Figure 00000144
30 основной полосы частот, обработанного аудиосигнала 32, содержащего более высокие частоты 32 по сравнению с исходным аудиосигналом, восстановленного аудиосигнала 35, частотного наложения
Figure 00000145
40 со скорректированной амплитудой, фазы 45 аудиосигнала или амплитуды 47 аудиосигнала. Следовательно, различные аудиосигналы могут быть взаимозаменяемыми вследствие контекста варианта осуществления.
Альтернативные варианты осуществления относятся к другой гребенке фильтров или областям преобразования, используемым для изобретаемой частотно-временной обработки, например, к области кратковременного преобразования Фурье (STFT) комплексного модифицированного дискретного косинусного преобразования (CMDCT) или дискретного преобразования Фурье (DFT). Следовательно, могут учитываться конкретные фазовые свойства, связанные с преобразованием. Подробно, если, например, коэффициенты перезаписи копируются из четного числа в нечетное число или наоборот, т.е. вторая подполоса частот исходного аудиосигнала копируется в девятую подполосу частот вместо восьмой подполосы частот, как описано в вариантах осуществления, комплексно-сопряженное число наложения может использоваться для обработки. То же применимо к зеркалированию наложений вместо использования, например, алгоритма перезаписи, чтобы преодолевать обратный порядок фазовых углов в наложении.
Другие варианты осуществления могут отказываться от вспомогательной информации из кодера и оценивать часть или все необходимые параметры коррекции в узле декодера. Дополнительные варианты осуществления могут иметь другие базовые схемы BWE-наложения, которые, например, используют различные части в основной полосе частот, различное число или размер наложений или различные технологии транспозиции, например, спектральное зеркалирование или модуляция с одной боковой полосой частот (SSB). Также могут существовать варьирования, в которых конкретно фазовая коррекция организована в последовательность сигналов для BWE-синтеза. Кроме того, сглаживание выполняется с использованием скользящей взвешивающей функции Ханна, которая может быть заменена для лучшей эффективности вычислений, например, посредством IIR первого порядка.
Использование перцепционных аудиокодеков предшествующего уровня техники зачастую нарушает фазовую когерентность спектральных компонентов аудиосигнала, в частности, на низких скоростях передачи битов, на которых применяются технологии параметрического кодирования, такие как расширение полосы пропускания. Это приводит к изменению производной фазы аудиосигнала. Тем не менее, в определенных типах сигналов, сохранение производной фазы является важным. Как результат, перцепционное качество таких звуков нарушается. Настоящее изобретение повторно регулирует производную фазы либо по частоте ("вертикальную"), либо по времени ("горизонтальную") таких сигналов, если восстановление производной фазы является перцепционно полезным. Дополнительно, принимается решение в отношении того, регулирование вертикальной или горизонтальной производной фазы является перцепционно предпочтительным. Передача только очень компактной вспомогательной информации требуется для того, чтобы управлять обработкой коррекции производной фазы. Следовательно, изобретение повышает качество звука перцепционных аудиокодеров при небольших затратах в отношении вспомогательной информации.
Другими словами, репликация полос спектра (SBR) может вызывать ошибки в фазовом спектре. Человеческое восприятие этих ошибок изучено с раскрытием двух перцепционно значительных эффектов: разности в частотах и временных позициях гармоник. Обнаруживается, что ошибки по частоте являются воспринимаемыми только тогда, когда основная частота является достаточно высокой, так что существует только одна гармоника в ERB-полосе частот. Соответственно, обнаруживается, что ошибки временной позиции являются воспринимаемыми только в том случае, если основная частота является низкой, и если фазы гармоник совмещаются по частоте.
Ошибки по частоте могут обнаруживаться посредством вычисления производной фазы по времени (PDT). Если PDT-значения являются стабильными во времени, разности в них между SBR-обработанным и исходным сигналами должны корректироваться. Это эффективно корректирует частоты гармоник, и за счет этого исключается восприятие негармоничности.
Ошибки временной позиции могут обнаруживаться посредством вычисления производной фазы по частоте (PDF). Если PDF-значения являются стабильными по частоте, разности в них между SBR-обработанным и исходным сигналами должны корректироваться. Это эффективно корректирует временные позиции гармоник, и за счет этого исключается восприятие модуляции шумов на частотах разделения.
Хотя настоящее изобретение описано в контексте блок-схем, на которых блоки представляют фактические или логические аппаратные компоненты, настоящее изобретение также может реализовываться посредством машинореализованного способа. Во втором случае, блоки представляют соответствующие этапы способа, причем эти этапы означают функциональности, выполняемые посредством соответствующих логических или физических аппаратных блоков.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
Изобретаемый передаваемый кодированный сигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код сконфигурирован с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель хранения данных (или энергонезависимый носитель хранения данных, такой как цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть сконфигурирована с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Библиографический список
[1] Painter, T.: Spanias, A. "Perceptual coding of digital audio", Proceedings of the IEEE, 88(4), 2000 год; стр. 451-513.
[2] Larsen, E.; Aarts, R. "Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design", John Wiley and Sons Ltd, 2004 год, главы 5, 6.
[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, O. "Spectral Band Replication, the Novel Approach in Audio Coding", 112th AES Convention, апрель 2002 года, Preprint 5553.
[4] Nagel, F.; Disch, S.; Rettelbach, N. "The Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs", 126th AES Convention, 2009 год.
[5] D. Griesinger "The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources", Tonmeister Tagung, 2010 год.
[6] D. Dorran и R. Lawlor, "Time-scale modification of music using the synchronized subband/time domain approach", IEEE International Conference on Acoustics, Speech and Signal Processing, стр. IV 225 - IV 228, Монреаль, май 2004 года.
[7] J. Laroche, "Frequency-domain techniques for high quality voice modification", Proceedings of the International Conference on Digital Audio Effects, стр. 328-322, 2003.
[8] Laroche, J.; Dolson, M. "Phase-vocoder: about this phasiness business", Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, издание, номер, стр. 4, стр. 19-22, октябрь 1997 года
[9] M. Dietz, L. Liljeryd, K. Kjörling и O. Kunz "Spectral band replication, the novel approach in audio coding", in AES 112th Convention, (Мюнхен, Германия), май 2002 года.
[10] P. Ekstrand "Bandwidth extension of audio signals by spectral band replication", in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Левен, Бельгия), ноябрь 2002 года.
[11] B. C. J. Moore и B. R. Glasberg "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. Soc. Am., издание 74, стр. 750-753, сентябрь 1983 года.
[12] T. M. Shackleton и R. P. Carlyon "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination", J. Acoust. Soc. Am., издание 95, стр. 3529-3540, июнь 1994 года.
[13] M.-V. Laitinen, S. Disch и V. Pulkki "Sensitivity of human hearing to changes in phase spectrum", J. Audio Eng. Soc., издание 61, стр. 860-877, ноябрь 2013 года.
[14] A. Klapuri "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE Transactions on Speech and Audio Processing, издание 11, ноябрь 2003 года.

Claims (42)

1. Модуль (270) вычисления для определения данных (295) фазовой коррекции для аудиосигнала (55), причем модуль вычисления содержит:
- модуль (275) определения варьирования для определения варьирования фазы аудиосигнала (55) в режиме первого варьирования и режиме второго варьирования;
- модуль (280) сравнения варьирования для сравнения первого варьирования (290a), определенного с использованием режима первого варьирования, и второго варьирования (290b), определенного с использованием режима второго варьирования; и
- модуль (285) вычисления корректирующих данных для вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.
2. Модуль (270) вычисления по п. 1,
- в котором модуль (275) определения варьирования выполнен с возможностью определения показателя среднеквадратического отклонения производной фазы (305a) по времени (PDT) для множества временных кадров аудиосигнала (55) в качестве варьирования (290a) фазы в режиме первого варьирования;
- при этом модуль (275) определения варьирования выполнен с возможностью определения показателя среднеквадратического отклонения производной фазы (205b) по частоте (PDF) для множества подполос частот аудиосигнала (55) в качестве варьирования (290b) фазы в режиме второго варьирования; и
- при этом модуль (280) сравнения варьирования выполнен с возможностью сравнения показателя производной фазы (205a) по времени в качестве первого варьирования (290a) и показателя производной фазы (305b) по частоте в качестве второго варьирования (290b) для временных кадров аудиосигнала.
3. Модуль (270) вычисления по п. 1,
- в котором модуль (275) определения варьирования выполнен с возможностью определения кругового среднеквадратического отклонения (351a) производной фазы по времени текущего и множества предыдущих кадров аудиосигнала (55) в качестве показателя среднеквадратического отклонения и определения кругового среднеквадратического отклонения (351b) производной фазы по времени текущего и множества будущих кадров аудиосигнала (55) для текущего временного кадра в качестве дополнительного показателя среднеквадратического отклонения;
- при этом модуль (275) определения варьирования выполнен с возможностью вычисления, при определении первого варьирования (290a), минимума (325) из упомянутого показателя среднеквадратического отклонения и упомянутого дополнительного показателя среднеквадратического отклонения.
4. Модуль (270) вычисления по п. 2,
- в котором модуль (275) определения варьирования выполнен с возможностью вычисления варьирования (290a) в режиме первого варьирования в качестве комбинации показателей среднеквадратического отклонения для множества подполос (95) частот во временном кадре (75), чтобы формировать показатель (335a) усредненного среднеквадратического отклонения по частоте; и
- при этом модуль (280) сравнения варьирования выполнен с возможностью выполнения комбинации показателей среднеквадратического отклонения посредством вычисления среднего значения с энергетическим взвешиванием показателей среднеквадратического отклонения множества подполос частот с использованием значений амплитуды подполосного сигнала (95) в текущем временном кадре (75) в качестве показателя энергии.
5. Модуль (270) вычисления по п. 1,
- в котором модуль (275) определения варьирования выполнен с возможностью сглаживания показателя усредненного среднеквадратического отклонения, при определении первого варьирования (290a), по текущему, множеству предыдущих и множеству будущих временных кадров, при этом сглаживание (345a) взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров, и первой функции кодирования со взвешиванием;
- при этом модуль (275) определения варьирования выполнен с возможностью сглаживания показателя среднеквадратического отклонения, при определении второго варьирования (290b) по текущему, множеству предыдущих и множеству будущих временных кадров (75), при этом сглаживание (345b) взвешивается согласно энергии, вычисленной с использованием соответствующих временных кадров (75), и второй функции кодирования со взвешиванием; и
- при этом модуль (280) сравнения варьирования выполнен с возможностью сравнения показателя (345a) сглаженного усредненного среднеквадратического отклонения в качестве первого варьирования (290a), определенного с использованием режима первого варьирования, и сравнения показателя (345b) сглаженного среднеквадратического отклонения в качестве второго варьирования (290b), определенного с использованием режима второго варьирования.
6. Модуль (270) вычисления по п. 1, содержащий:
- модуль (275) определения варьирования, выполненный с возможностью определения третьего варьирования (290c) фазы аудиосигнала (55) в режиме третьего варьирования, при этом режим третьего варьирования представляет собой режим обнаружения переходных частей;
- модуль (280) сравнения варьирования для сравнения первого варьирования (290a), определенного с использованием режима первого варьирования, второго варьирования (290b), определенного с использованием режима второго варьирования, и третьего варьирования (290c), определенного с использованием режима третьего варьирования; и
- модуль (285) вычисления корректирующих данных для вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования, режимом второго варьирования или режимом третьего варьирования на основе результата сравнения.
7. Модуль (270) вычисления по п. 6,
- в котором модуль (280) сравнения варьирования выполнен с возможностью вычисления мгновенной энергетической оценки текущего временного кадра и усредненной во времени энергетической оценки по множеству временных кадров (75) при вычислении варьирования (290c) в режиме третьего варьирования; и
- при этом модуль (280) сравнения варьирования выполнен с возможностью вычисления отношения мгновенной энергетической оценки и усредненной во времени энергетической оценки и выполнен с возможностью сравнения отношения с заданным пороговым значением, чтобы обнаруживать переходные части во временном кадре (75).
8. Модуль (270) вычисления по п. 1,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом третьего варьирования, если обнаруживается переходная часть.
9. Модуль вычисления по п. 1,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции для третьего варьирования (290c) для текущего, одного или более предыдущих и одного или более будущих временных кадров.
10. Модуль (270) вычисления по п. 1,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом первого варьирования, если отсутствие переходной части обнаруживается, и если первое варьирование (290a), определенное в режиме первого варьирования, меньше или равно второму варьированию (290b), определенному в режиме второго варьирования.
11. Модуль (270) вычисления по п. 1,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции в соответствии с режимом второго варьирования, если отсутствие переходной части обнаруживается, и если второе варьирование (299b), определенное в режиме второго варьирования, меньше первого варьирования (290a), определенного в режиме первого варьирования.
12. Модуль (270) вычисления по п. 11,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления данных (295) фазовой коррекции для второго варьирования (290b) для текущего, одного или более предыдущих и одного или более будущих временных кадров.
13. Модуль вычисления по п. 1,
- в котором модуль (285) вычисления корректирующих данных выполнен с возможностью вычисления корректирующих данных (295) для горизонтальной фазовой коррекции в режиме первого варьирования, вычисления корректирующих данных (295) для вертикальной фазовой коррекции в режиме второго варьирования и вычисления корректирующих данных (295) для коррекции переходных частей в режиме третьего варьирования.
14. Способ (4100) для определения данных (295) фазовой коррекции для аудиосигнала с помощью модуля (270) вычисления, при этом способ содержит этапы, на которых:
- определяют варьирование фазы аудиосигнала (55) в режиме первого варьирования и режиме второго варьирования;
- сравнивают варьирование, определенное с использованием режима первого варьирования и режима второго варьирования; и
- вычисляют данные (295) фазовой коррекции в соответствии с режимом первого варьирования или режимом второго варьирования на основе результата сравнения.
15. Машиночитаемый запоминающий носитель, содержащий сохраненную на нем компьютерную программу, содержащую программный код для осуществления способа по п. 14, когда компьютерная программа исполняется на компьютере.
RU2017103101A 2014-07-01 2015-06-25 Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала RU2676899C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14175202.2 2014-07-01
EP14175202 2014-07-01
EP15151465.0A EP2963645A1 (en) 2014-07-01 2015-01-16 Calculator and method for determining phase correction data for an audio signal
EP15151465.0 2015-01-16
PCT/EP2015/064436 WO2016001067A1 (en) 2014-07-01 2015-06-25 Calculator and method for determining phase correction data for an audio signal

Publications (3)

Publication Number Publication Date
RU2017103101A3 RU2017103101A3 (ru) 2018-08-01
RU2017103101A RU2017103101A (ru) 2018-08-01
RU2676899C2 true RU2676899C2 (ru) 2019-01-11

Family

ID=52449941

Family Applications (4)

Application Number Title Priority Date Filing Date
RU2017103102A RU2676416C2 (ru) 2014-07-01 2015-06-25 Аудиопроцессор и способ для обработки аудиосигнала с использованием горизонтальной фазовой коррекции
RU2017103101A RU2676899C2 (ru) 2014-07-01 2015-06-25 Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала
RU2017103107A RU2676414C2 (ru) 2014-07-01 2015-06-25 Аудиопроцессор и способ для обработки аудиосигнала с использованием вертикальной фазовой коррекции
RU2017103100A RU2675151C2 (ru) 2014-07-01 2015-06-25 Декодер и способ для декодирования аудиосигнала, кодер и способ для кодирования аудиосигнала

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2017103102A RU2676416C2 (ru) 2014-07-01 2015-06-25 Аудиопроцессор и способ для обработки аудиосигнала с использованием горизонтальной фазовой коррекции

Family Applications After (2)

Application Number Title Priority Date Filing Date
RU2017103107A RU2676414C2 (ru) 2014-07-01 2015-06-25 Аудиопроцессор и способ для обработки аудиосигнала с использованием вертикальной фазовой коррекции
RU2017103100A RU2675151C2 (ru) 2014-07-01 2015-06-25 Декодер и способ для декодирования аудиосигнала, кодер и способ для кодирования аудиосигнала

Country Status (19)

Country Link
US (6) US10140997B2 (ru)
EP (8) EP2963649A1 (ru)
JP (4) JP6535037B2 (ru)
KR (4) KR101958361B1 (ru)
CN (4) CN106663439B (ru)
AR (4) AR101044A1 (ru)
AU (7) AU2015282747B2 (ru)
BR (3) BR112016029895A2 (ru)
CA (6) CA2953427C (ru)
ES (4) ES2677524T3 (ru)
MX (4) MX364198B (ru)
MY (3) MY192221A (ru)
PL (3) PL3164870T3 (ru)
PT (3) PT3164869T (ru)
RU (4) RU2676416C2 (ru)
SG (4) SG11201610732WA (ru)
TR (2) TR201809988T4 (ru)
TW (4) TWI587289B (ru)
WO (4) WO2016001066A1 (ru)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP4134953A1 (en) * 2016-04-12 2023-02-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
US10277440B1 (en) * 2016-10-24 2019-04-30 Marvell International Ltd. Determining common phase error
US20200018752A1 (en) * 2017-03-03 2020-01-16 Baxalta Incorporated Methods for determining potency of adeno-associated virus preparations
KR20180104872A (ko) 2017-03-14 2018-09-27 현대자동차주식회사 주행 상황을 반영하는 주행 제어 시스템에서의 변속 장치 및 방법
CN107071689B (zh) * 2017-04-19 2018-12-14 音曼(北京)科技有限公司 一种方向自适应的空间音频处理方法及系统
CN115175299B (zh) * 2017-06-16 2023-10-10 创新技术实验室株式会社 指示同步信号块的方法和装置
WO2019014074A1 (en) * 2017-07-09 2019-01-17 Selene Photonics, Inc. ANTIVAL DISTRIBUTION SYSTEMS AND METHODS
CN107798048A (zh) * 2017-07-28 2018-03-13 昆明理工大学 一种用于射电日像仪海量数据管理的负数据库管理方法
CN107424616B (zh) * 2017-08-21 2020-09-11 广东工业大学 一种相位谱去除掩模的方法与装置
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
TWI834582B (zh) * 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
TWI692939B (zh) * 2018-08-14 2020-05-01 鈺創科技股份有限公司 過濾訊號的數位濾波器
CN111077371B (zh) * 2018-10-19 2021-02-05 大唐移动通信设备有限公司 一种提高相位测量精度的方法和装置
WO2020118123A1 (en) * 2018-12-05 2020-06-11 Black Lattice Technologies, Inc. Stochastic linear detection
US10993061B2 (en) 2019-01-11 2021-04-27 Boomcloud 360, Inc. Soundstage-conserving audio channel summation
CN112532208B (zh) * 2019-09-18 2024-04-05 惠州迪芬尼声学科技股份有限公司 谐波发生器及用于生成谐波的方法
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system
JP7425421B2 (ja) 2020-02-20 2024-01-31 日産自動車株式会社 画像処理装置及び画像処理方法
CN111405419B (zh) * 2020-03-26 2022-02-15 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN113259083B (zh) * 2021-07-13 2021-09-28 成都德芯数字科技股份有限公司 一种调频同步网相位同步方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
WO2005073960A1 (en) * 2004-01-27 2005-08-11 Dolby Laboratories Licensing Corporation Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2631906A (en) * 1945-01-12 1953-03-17 Automotive Prod Co Ltd Sealing device for fluid pressure apparatus
US4802225A (en) 1985-01-02 1989-01-31 Medical Research Council Analysis of non-sinusoidal waveforms
EP0243562B1 (en) * 1986-04-30 1992-01-29 International Business Machines Corporation Improved voice coding process and device for implementing said process
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5602959A (en) 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5894473A (en) * 1996-02-29 1999-04-13 Ericsson Inc. Multiple access communications system and method using code and time division
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
GB2319379A (en) 1996-11-18 1998-05-20 Secr Defence Speech processing system
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6226661B1 (en) * 1998-11-13 2001-05-01 Creative Technology Ltd. Generation and application of sample rate conversion ratios using distributed jitter
JP4639441B2 (ja) * 1999-09-01 2011-02-23 ソニー株式会社 ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法
NL1013500C2 (nl) 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
GB0001585D0 (en) * 2000-01-24 2000-03-15 Radioscape Ltd Method of designing,modelling or fabricating a communications baseband stack
JP4567289B2 (ja) * 2000-02-29 2010-10-20 クゥアルコム・インコーポレイテッド 準周期信号の位相を追跡するための方法および装置
US6701297B2 (en) * 2001-03-02 2004-03-02 Geoffrey Layton Main Direct intermediate frequency sampling wavelet-based analog-to-digital and digital-to-analog converter
US7146503B1 (en) * 2001-06-04 2006-12-05 At&T Corp. System and method of watermarking signal
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
ES2323294T3 (es) 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP4227772B2 (ja) * 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
JP4380174B2 (ja) * 2003-02-27 2009-12-09 沖電気工業株式会社 帯域補正装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
FR2865310A1 (fr) * 2004-01-20 2005-07-22 France Telecom Procede de restauration de partiels d'un signal sonore
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US20060014299A1 (en) 2004-04-12 2006-01-19 Troup Jan M Method for analyzing blood for cholesterol components
DE102004021403A1 (de) 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
DE102004021404B4 (de) 2004-04-30 2007-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wasserzeicheneinbettung
US7672835B2 (en) * 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
TW200627999A (en) * 2005-01-05 2006-08-01 Srs Labs Inc Phase compensation techniques to adjust for speaker deficiencies
PL1839297T3 (pl) 2005-01-11 2019-05-31 Koninklijke Philips Nv Skalowalne kodowanie/dekodowanie sygnałów audio
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7693225B2 (en) * 2005-07-21 2010-04-06 Realtek Semiconductor Corp. Inter-symbol and inter-carrier interference canceller for multi-carrier modulation receivers
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US8259840B2 (en) 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
WO2007068861A2 (fr) * 2005-12-15 2007-06-21 France Telecom Procede d'estimation de phase pour la modelisation sinusoidale d'un signal numerique
EP1979899B1 (de) 2006-01-31 2015-03-11 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
US7676374B2 (en) 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
ATE448638T1 (de) 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7761078B2 (en) * 2006-07-28 2010-07-20 Qualcomm Incorporated Dual inductor circuit for multi-band wireless communication device
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US7831001B2 (en) * 2006-12-19 2010-11-09 Sigmatel, Inc. Digital audio processing system and method
CN101051456B (zh) * 2007-01-31 2010-12-01 张建平 音频相位检测和自动校正设备
KR101131880B1 (ko) 2007-03-23 2012-04-03 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
JPWO2009008068A1 (ja) 2007-07-11 2010-09-02 パイオニア株式会社 自動音場補正装置
CN101373594A (zh) * 2007-08-21 2009-02-25 华为技术有限公司 修正音频信号的方法及装置
US20110280421A1 (en) 2007-08-28 2011-11-17 Nxp B.V. Device for and a method of processing audio signals
EP2099027A1 (en) 2008-03-05 2009-09-09 Deutsche Thomson OHG Method and apparatus for transforming between different filter bank domains
EP2296145B1 (en) * 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8036891B2 (en) 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
RU2491658C2 (ru) 2008-07-11 2013-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
EP2345026A1 (en) 2008-10-03 2011-07-20 Nokia Corporation Apparatus for binaural audio coding
EP2353160A1 (en) * 2008-10-03 2011-08-10 Nokia Corporation An apparatus
PL4231291T3 (pl) 2008-12-15 2024-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
EP2380172B1 (en) 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
EP2234103B1 (en) * 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
KR101613975B1 (ko) 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
US8856011B2 (en) 2009-11-19 2014-10-07 Telefonaktiebolaget L M Ericsson (Publ) Excitation signal bandwidth extension
JP5651945B2 (ja) * 2009-12-04 2015-01-14 ヤマハ株式会社 音響処理装置
PL3564954T3 (pl) 2010-01-19 2021-04-06 Dolby International Ab Ulepszona transpozycja harmonicznych oparta na bloku podpasma
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
PL2545551T3 (pl) * 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
RU2591012C2 (ru) * 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
CN102214464B (zh) 2010-04-02 2015-02-18 飞思卡尔半导体公司 音频信号的瞬态检测方法以及基于该方法的时长调整方法
CN102314882B (zh) 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
RU2573774C2 (ru) 2010-08-25 2016-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
US20140019125A1 (en) * 2011-03-31 2014-01-16 Nokia Corporation Low band bandwidth extended
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN102800317B (zh) 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
JP6051505B2 (ja) 2011-10-07 2016-12-27 ソニー株式会社 音声処理装置および音声処理方法、記録媒体、並びにプログラム
JP5810903B2 (ja) 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN103258539B (zh) * 2012-02-15 2015-09-23 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
KR101816506B1 (ko) * 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
WO2014106034A1 (en) 2012-12-27 2014-07-03 The Regents Of The University Of California Method for data compression and time-bandwidth product engineering
EP2950308B1 (en) 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9881624B2 (en) 2013-05-15 2018-01-30 Samsung Electronics Co., Ltd. Method and device for encoding and decoding audio signal
JP6216553B2 (ja) 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
WO2015041549A1 (en) 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
CN103490678B (zh) * 2013-10-17 2016-06-22 双峰格雷斯海姆医药玻璃(丹阳)有限公司 主从机同步控制方法及系统
KR20160087827A (ko) 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
US9990928B2 (en) 2014-05-01 2018-06-05 Digital Voice Systems, Inc. Audio watermarking via phase modification
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9933458B2 (en) 2015-03-31 2018-04-03 Tektronix, Inc. Band overlay separator

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
WO2005073960A1 (en) * 2004-01-27 2005-08-11 Dolby Laboratories Licensing Corporation Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns

Also Published As

Publication number Publication date
CN106663438A (zh) 2017-05-10
EP3164869A1 (en) 2017-05-10
CA2953413A1 (en) 2016-01-07
AU2015282747A1 (en) 2017-01-19
CA2953427C (en) 2019-04-09
US10283130B2 (en) 2019-05-07
WO2016001068A1 (en) 2016-01-07
JP2017521705A (ja) 2017-08-03
MY192221A (en) 2022-08-09
MY182904A (en) 2021-02-05
PL3164869T3 (pl) 2018-10-31
CA2953421A1 (en) 2016-01-07
EP3164869B1 (en) 2018-04-25
KR102025164B1 (ko) 2019-11-04
BR112016030149B1 (pt) 2023-03-28
AR101082A1 (es) 2016-11-23
KR20170033328A (ko) 2017-03-24
TWI587288B (zh) 2017-06-11
WO2016001067A1 (en) 2016-01-07
MX356672B (es) 2018-06-08
CN106663439B (zh) 2021-03-02
MX2016017286A (es) 2017-05-01
RU2017103101A3 (ru) 2018-08-01
US10770083B2 (en) 2020-09-08
RU2017103107A3 (ru) 2018-08-03
TW201618079A (zh) 2016-05-16
JP2017525995A (ja) 2017-09-07
AR101084A1 (es) 2016-11-23
CN106537498A (zh) 2017-03-22
AU2015282748A1 (en) 2017-01-19
US20190156842A1 (en) 2019-05-23
US10930292B2 (en) 2021-02-23
AU2018204782A1 (en) 2018-07-19
US20170110133A1 (en) 2017-04-20
CA2999327A1 (en) 2016-01-07
BR112016029895A2 (pt) 2017-08-22
AR101083A1 (es) 2016-11-23
AU2015282746B2 (en) 2018-05-31
AU2018203475B2 (en) 2019-08-29
AU2015282748B2 (en) 2018-07-26
AU2015282747B2 (en) 2017-11-23
TR201809988T4 (tr) 2018-08-27
RU2017103100A3 (ru) 2018-08-01
AU2015282746A1 (en) 2017-01-12
EP3164872A1 (en) 2017-05-10
CN106663439A (zh) 2017-05-10
AU2017261514B2 (en) 2019-08-15
AU2018203475A1 (en) 2018-06-07
TW201614639A (en) 2016-04-16
TW201618080A (zh) 2016-05-16
CA2998044C (en) 2021-04-20
RU2017103107A (ru) 2018-08-03
JP6527536B2 (ja) 2019-06-05
KR101944386B1 (ko) 2019-02-01
BR112016030343B1 (pt) 2023-04-11
EP3164873B1 (en) 2018-06-06
US20170110134A1 (en) 2017-04-20
RU2017103102A (ru) 2018-08-03
US20170110135A1 (en) 2017-04-20
US10192561B2 (en) 2019-01-29
RU2017103100A (ru) 2018-08-01
CA2953426C (en) 2021-08-31
CN106575510B (zh) 2021-04-20
EP3164870A1 (en) 2017-05-10
CA2953426A1 (en) 2016-01-07
SG11201610837XA (en) 2017-01-27
MY182840A (en) 2021-02-05
WO2016001069A1 (en) 2016-01-07
MX2016016897A (es) 2017-03-27
SG11201610836TA (en) 2017-01-27
AU2018204782B2 (en) 2019-09-26
KR20170028960A (ko) 2017-03-14
CN106537498B (zh) 2020-03-31
BR112016030149A2 (ru) 2017-08-22
ES2677250T3 (es) 2018-07-31
JP2017525994A (ja) 2017-09-07
AR101044A1 (es) 2016-11-16
KR101958361B1 (ko) 2019-03-15
PT3164873T (pt) 2018-10-09
AU2015282749B2 (en) 2017-11-30
SG11201610732WA (en) 2017-01-27
PL3164873T3 (pl) 2018-11-30
TWI591619B (zh) 2017-07-11
EP2963645A1 (en) 2016-01-06
AU2015282749A1 (en) 2017-01-19
RU2676414C2 (ru) 2018-12-28
MX359035B (es) 2018-09-12
SG11201610704VA (en) 2017-01-27
MX2016016770A (es) 2017-04-27
RU2676416C2 (ru) 2018-12-28
AU2017261514A1 (en) 2017-12-07
KR101978671B1 (ko) 2019-08-28
US20190108849A1 (en) 2019-04-11
ES2678894T3 (es) 2018-08-20
ES2677524T3 (es) 2018-08-03
TWI587292B (zh) 2017-06-11
EP3164872B1 (en) 2018-05-02
EP3164873A1 (en) 2017-05-10
MX2016016758A (es) 2017-04-25
TWI587289B (zh) 2017-06-11
RU2675151C2 (ru) 2018-12-17
JP6553657B2 (ja) 2019-07-31
CN106575510A (zh) 2017-04-19
CN106663438B (zh) 2021-03-26
RU2017103102A3 (ru) 2018-08-03
US10140997B2 (en) 2018-11-27
TW201618078A (zh) 2016-05-16
MX354659B (es) 2018-03-14
EP2963649A1 (en) 2016-01-06
JP2017524151A (ja) 2017-08-24
PT3164870T (pt) 2018-07-30
CA2999327C (en) 2020-07-07
CA2953413C (en) 2021-09-07
JP6458060B2 (ja) 2019-01-23
JP6535037B2 (ja) 2019-06-26
EP2963646A1 (en) 2016-01-06
KR20170030549A (ko) 2017-03-17
PT3164869T (pt) 2018-07-30
US10529346B2 (en) 2020-01-07
TR201810148T4 (tr) 2018-08-27
US20170110132A1 (en) 2017-04-20
CA2953421C (en) 2020-12-15
CA2998044A1 (en) 2016-01-07
PL3164870T3 (pl) 2018-10-31
KR20170031704A (ko) 2017-03-21
EP3164870B1 (en) 2018-05-02
MX364198B (es) 2019-04-16
WO2016001066A1 (en) 2016-01-07
RU2017103101A (ru) 2018-08-01
EP2963648A1 (en) 2016-01-06
BR112016030343A2 (ru) 2017-08-22
ES2683870T3 (es) 2018-09-28
CA2953427A1 (en) 2016-01-07

Similar Documents

Publication Publication Date Title
RU2676899C2 (ru) Модуль вычисления и способ для определения данных фазовой коррекции для аудиосигнала