RU2632585C2 - Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов - Google Patents

Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов Download PDF

Info

Publication number
RU2632585C2
RU2632585C2 RU2016101336A RU2016101336A RU2632585C2 RU 2632585 C2 RU2632585 C2 RU 2632585C2 RU 2016101336 A RU2016101336 A RU 2016101336A RU 2016101336 A RU2016101336 A RU 2016101336A RU 2632585 C2 RU2632585 C2 RU 2632585C2
Authority
RU
Russia
Prior art keywords
frame
spectrum
replacement
peak
replacement frame
Prior art date
Application number
RU2016101336A
Other languages
English (en)
Other versions
RU2016101336A (ru
Inventor
Джанин СУКОВСКИ
Ральф ШПЕРШНАЙДЕР
Горан МАРКОВИЧ
Вольфганг ЕГЕРС
Кристиан ХЕЛЬМРИХ
Бернд ЭДЛЕР
Ральф ГАЙГЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016101336A publication Critical patent/RU2016101336A/ru
Application granted granted Critical
Publication of RU2632585C2 publication Critical patent/RU2632585C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к акустике, в частности, к способам обработки аудиоинформации. Способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала осуществляется следующим образом: детектируют тональные компоненты спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру, для тонального компонента спектра осуществляют предсказание спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра и для нетонального компонента спектра используют непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующего спектрального коэффициента кадра, предшествующего заменяющему кадру. Спектральные коэффициенты для пика и его окружения в спектре заменяющего кадра предсказывают на основании амплитуды комплексного спектра кадра, предшествующего заменяющему кадру, и предсказанной фазы комплексного спектра заменяющего кадра, и фазу комплексного спектра заменяющего кадра предсказывают на основании фазы комплексного спектра кадра , предшествующего заменяющему кадру, и фазового сдвига между кадрами, предшествующими заменяющему кадру. Технический результат – повышение точности декодирования. 7 н. и 32 з.п. ф-лы, 8 ил.

Description

Описание
Настоящее изобретение относится к области передачи кодированных аудиосигналов, более конкретно - к способу и устройству для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодеру аудио, приемнику аудио и системе для передачи аудиосигналов. Варианты осуществления относятся к подходу для создания спектра для заменяющего кадра на основе ранее принятых кадров.
В известном уровне техники описаны некоторые подходы, рассматривающие вопросы потери кадра в приемнике аудио. Например, когда кадр теряется на стороне приемника аудиокодека или речевого кодека, могут использоваться простые способы маскирования потери кадра, как описано в ссылке [1], такие как:
- повторение последнего принятого кадра,
- подавление потерянного кадра или
- скремблирование со знаком.
Кроме того, в ссылке [1] представлен усовершенствованный способ, использующий блоки предсказания (экстраполяторы) в поддиапазонах. Методика блока предсказания затем объединяется со «скремблированием со знаком», и коэффициент усиления по предсказанию используется в качестве критерия принятия решения на основе поддиапазона, чтобы определять способ, который будет использоваться для спектральных коэффициентов этого поддиапазона.
В ссылке [2] экстраполяция аналогового сигнала (волновой формы) во временной области используется для кодека области модифицированного дискретного косинусного преобразования (MDCT). Этот вид подхода может быть хорошим для монофонических сигналов, включая речь.
Если допускается задержка в один кадр, может использоваться интерполяция кадров окружения для создания потерянного кадра. Такой подход описан в ссылке [3], где амплитуды тональных компонентов в потерянном кадре с индексом m интерполируют, используя соседние кадры с индексами m-1 и m+1. Вспомогательная информация, которая задает знаки коэффициентов MDCT для тональных компонентов, передается в потоке битов. Скремблирование со знаком используется для других нетональных коэффициентов MDCT. Тональные компоненты определяют как предварительно определенное фиксированное число спектральных коэффициентов с наибольшими амплитудами. Этот подход выбирает n спектральных коэффициентов с наибольшими амплитудами в качестве тональных компонентов.
Figure 00000001
Фиг.7 показывает блок-схему, представляющую интерполяционный подход без передаваемой вспомогательной информации, как это, например, описано в ссылке [4]. Интерполяционный подход работает на основе аудио кадров, кодированных в частотной области, с использованием MDCT (модифицированное дискретное косинусное преобразование). Блок 700 кадровой интерполяции принимает коэффициенты MDCT для кадра, предшествующего потерянному кадру, и кадра, следующего после потерянного кадра, более конкретно в подходе, описанном в отношении Фиг.7, MDCT-коэффициенты
Figure 00000002
предыдущего кадра и MDCT-коэффициенты
Figure 00000003
последующего кадра принимают на этапе 700 кадровой интерполяции. Блок 700 кадровой интерполяции генерирует интерполированный MDCT коэффициент
Figure 00000004
для текущего кадра, который либо был потерян в приемнике, либо не может быть обработан в приемнике по другим причинам, например, из-за ошибок в принятых данных и т.п. Интерполированный MDCT-коэффициент
Figure 00000004
, выводимый блоком 700 кадровой интерполяции, подается на блок 702, вынуждая масштабирование амплитуды в диапазоне масштабирующих коэффициентов, и на блок 704, вынуждая масштабирование амплитуды в рамках набора индексов, и соответственные блоки 702 и 704 выводят MDCT-коэффициент
Figure 00000004
, масштабированный множителем
Figure 00000005
и
Figure 00000006
, соответственно. Выходной сигнал блока 702 вводится на блок 706 псевдоспектра, генерирующий на основе принятого входного сигнала псевдо спектр
Figure 00000007
, который вводится на блок 708 детектирования пика, генерирующий сигнал, указывающий детектированные пики. Сигнал, обеспечиваемый блоком 702, также подается на блок 712 произвольного изменения знака, который, в ответ на сигнал детектирования пика, сгенерированный блоком 708, вызывает изменение знака принятого сигнала и выводит измененный MDCT-коэффициент
Figure 00000008
на блок 710 составления спектра. Масштабированный сигнал, обеспечиваемый блоком 704, подается на блок 714 коррекции знака, вынуждая в ответ на сигнал детектирования пика, обеспечиваемый блоком 708, коррекцию знака масштабированного сигнала, обеспечиваемого блоком 704, и вывод модифицированного MDCT-коэффициента
Figure 00000009
на блок 710 составления спектра, который на основе принятых сигналов генерирует интерполированный MDCT-коэффициент
Figure 00000010
, который выводится блоком 710 составления спектра. Как показано на Фиг.7, сигнал детектирования пика, обеспечиваемый блоком 708, также предоставляется на блок 704, генерирующий масштабированный MDCT-коэффициент.
Фиг.7 показывает формирование на выходе блока 714 спектральных коэффициентов
Figure 00000011
для потерянного кадра, связанных с тональными компонентами, и на выходе блока 712 спектральные коэффициенты
Figure 00000012
для нетональных компонентов обеспечиваются с тем результатом, что на этапе 710 составления спектра на основе спектральных коэффициентов, принятых для тональных и нетональных компонентов, обеспечиваются спектральные коэффициенты для спектра, связанного с потерянным кадром.
Действие способа FLC (маскирование потери кадра), описанного на блок-схеме по Фиг.7, теперь будет описана более подробно.
На Фиг.7, в основном могут быть выделены четыре модуля:
модуль вставки формируемого шума (включая интерполяцию кадра 700, масштабирование амплитуды в рамках диапазона 702 масштабирующих коэффициентов и произвольное изменение 712 знака),
модуль классификации элемента выборки MDCT (включая псевдоспектр 706 и детектирование 708 пиков),
модуль операций тонального маскирования (включая масштабирование амплитуды в рамках набора индексов 704 и коррекцию 714 знака), и
модуль 710 составления спектра.
Подход основывается на следующей общей формуле:
Figure 00000013
Figure 00000014
выводят путем интерполяции по элементам выборки (см. блок 700 “Кадровая интерполяция”),
Figure 00000015
Значение
Figure 00000016
получают путем интерполяции значений энергии, используя среднее геометрическое:
на основе диапазона масштабирующих коэффициентов для всех компонентов, (см. блок 702 “Масштабирование амплитуды в диапазоне масштабирующих коэффициентов”), и
на основе поднабора индексов для тональных компонентов (см. этап, 704 “Масштабирование амплитуды в рамках набора индексов”):
Figure 00000017
для тональных компонентов можно показать что
Figure 00000018
, при
Figure 00000019
, являющейся частотой тонального компонента.
Значения
Figure 00000020
энергии получают на основании энергетического псевдоспектра, получаемого простой операцией сглаживания:
Figure 00000021
Figure 00000022
устанавливают произвольным образом в ±1 для нетональных компонентов (см. блок 712 “Произвольное изменение знака”), и либо в +1 или -1 для тональных компонентов (см. блок 714 “коррекция знака”).
Детектирование пиков выполняется в виде поиска локальных максимумов в энергетическом псевдоспектре, чтобы детектировать точные местоположения спектральных пиков, соответствующих нижележащим синусоидам. Это основывается на процессе идентификации тона, принятом в предложенной Экспертной группой по вопросам движущегося изображения психоакустической модели MPEG 1, описанной в ссылке [5]. Из этого, поднабор индексов задается имеющим ширину спектра, соответствующую основному лепестку окна анализа в терминах элементов выборки MDCT и детектированным пиком в его центре. Эти элементы выборки обрабатывают как тональные доминантные элементы выборки MDCT для синусоиды, и поднабор индексов обрабатывается как отдельный тональный компонент.
Коррекция знака
Figure 00000023
переключает либо знаки всех элементов выборки некоторого тонального компонента, либо ни одного. Определение выполняют, используя метод анализа через синтез, то есть, SFM получают выводом для обеих версий и выбирают версии с более низким SFM. Для вывода SFM требуется энергетический спектр, которому в свою очередь требуются коэффициенты модифицированного дискретного синусного преобразования (MDST). Для поддержания поддающейся управлению сложности, выводят только коэффициенты MDST для тонального компонента, используя также только коэффициенты MDCT этого тонального компонента.
Фиг.8 иллюстрирует блок-схему общего способа FLC, который уточнен по сравнению с подходом по Фиг.7, и который описан в ссылке [6]. На Фиг.8 MDCT-коэффициенты
Figure 00000024
и
Figure 00000025
последнего кадра, предшествующего потерянному кадру, и первого кадра после потерянного кадра, принимают на этапе 800 классификации элемента выборки MDCT. Эти коэффициенты также предоставляются на этап 802 вставки формируемого шума и на этап 804 оценивания MDCT для тональных компонентов. На этапе 804 кроме того принимают выходной сигнал, обеспечиваемый этапом 800 классификации, а также принимают MDCT-коэффициенты
Figure 00000026
и
Figure 00000027
предпоследнего кадра, предшествующего потерянному кадру, и второго кадра после потерянного кадра, соответственно. Этап 804 формирует MDCT коэффициенты
Figure 00000028
потерянного кадра для тональных компонентов, и этап 802 вставки формируемого шума формирует спектральные MDCT-коэффициенты
Figure 00000029
потерянного кадра для нетональных компонентов. Эти коэффициенты подаются на этап 806 составления спектра, генерирующий на выходе спектральные коэффициенты
Figure 00000030
для потерянного кадра. Этап 802 вставки формируемого шума работает в ответ на системный
Figure 00000031
, сформированный этапом 804 оценивания.
Последующие модификации представляют интерес относительно ссылки [4]:
Энергетический псевдоспектр, используемый для детектирования пика, выводят в виде
Figure 00000032
Для устранения по восприятию нерелевантных или паразитных пиков, детектирование пиков применяют только к ограниченному спектральному диапазону и рассматриваются только локальные максимумы, которые превышают относительное пороговое значение по отношению к абсолютному максимуму энергетического псевдоспектра. Остающиеся пики сортируют в порядке убывания их величины (высоты), и предварительно-указанное число высоко ранжированных максимумов классифицируют как тональные пики.
Подход основывается на следующей общей формуле (при
Figure 00000033
со знаком в этот момент):
Figure 00000034
Figure 00000035
выводят, как указано выше, но вывод
Figure 00000033
становится более усовершенствованным, следуя подходу
Figure 00000036
Замена
Figure 00000037
и
Figure 00000038
на
Figure 00000039
тогда как
Figure 00000040
Figure 00000041
дает выражение, которое является квадратичным относительно α. Следовательно, для данной оценки MDCT имеются два кандидата (с противоположными знаками) для мультипликативного поправочного коэффициента (
Figure 00000042
являются матрицами преобразования). Выбор лучшей оценки выполняют подобно тому, как описано в ссылке [4].
Этот усовершенствованный подход требует двух кадров до и после потери кадра для того, чтобы вывести коэффициенты MDST для предыдущего и последующего кадра.
Не имеющая задержку версия подхода предложена в ссылке [7]:
В качестве начальной точки, повторно используется интерполяционная формула
Figure 00000043
, но применяется для кадра m-1, приводя к:
Figure 00000044
Затем результат
Figure 00000045
интерполяции заменяют истинной оценкой (здесь, множитель 2 становится частью поправочного коэффициента:
Figure 00000046
, каковое приводит к
Figure 00000047
Поправочный коэффициент определяют путем ведения наблюдения энергии двух предыдущих кадров. Исходя из вычисления энергии коэффициенты MDST предыдущего кадра аппроксимируют в виде
Figure 00000048
Затем вычисляют синусоидальную энергию в виде
Figure 00000049
Подобным образом вычисляют синусоидальную энергию для кадра m-2 и обозначают
Figure 00000050
, которая не зависит от α.
Применение требования к энергии
Figure 00000051
снова дает выражение, которое является квадратичным относительно α.
Процесс выбора для вычисленных кандидатов выполняют, как и ранее, но правило принятия решения учитывает только энергетический спектр предыдущего кадра.
Другое маскирование потери кадра без задержки в частотной области описано в ссылке [8]. Указания по ссылке [8] могут быть упрощены без потери общности в виде:
Предсказание с использованием дискретного преобразования Фурье (DFT) для сигнала (отметки) времени:
(a) Получить спектр DFT из декодированного сигнала во временной области, который соответствует принятым кодированным коэффициентам
Figure 00000052
частотной области.
(b) Модулировать амплитуды DFT, полагая линейное изменение фазы, чтобы предсказать недостающие коэффициенты
Figure 00000053
частотной области в следующем кадре
Предсказание с использованием оценивания амплитуды из принятого частотного спектра:
(a) Найти
Figure 00000054
и
Figure 00000055
, используя
Figure 00000056
в качестве входа, так что
Figure 00000057
где
Figure 00000058
- амплитуда коэффициента DFT, который соответствует
Figure 00000059
.
(b) Вычислить:
Figure 00000060
(c) Выполнить линейную экстраполяцию амплитуды и фазы:
Figure 00000061
Figure 00000062
Использовать фильтры, чтобы вычислить
Figure 00000063
и
Figure 00000064
из
Figure 00000065
и затем продолжить, как указано выше, чтобы получить
Figure 00000066
Использовать адаптивный фильтр для вычисления
Figure 00000067
:
Figure 00000068
Выбор спектральных коэффициентов, подлежащих предсказанию, упоминается в ссылке [8], но не описан подробно.
В ссылке [9] было выявлено, что для квазистационарных сигналов разность фаз между последовательными кадрами является почти постоянной и зависит только от дробной частоты. Однако используется только линейная экстраполяция из последних двух комплексных спектров.
В адаптивном многоскоростном широкополосном (AMR-WB+) кодере (см. ссылку [10]) используется способ, описанный в ссылке [11]. Способ в ссылке [11] является расширением способа, описанного в ссылке [8] в том смысле, что использует также доступные спектральные коэффициенты текущего кадра, полагая, что потеряна только часть текущего кадра. Однако ситуация полной потери кадра не рассматривается в ссылке [11].
Другое маскирование потери кадра без задержки в области MDCT описывается в ссылке [12]. В ссылке [12] сначала определяют, является ли потерянный P-й кадр кратно-гармоническим кадром. Потерянный P-й кадр является кратно-гармоническим кадром, если более чем K0 кадров из числа K кадров перед P-м кадром имеют сглаженность спектра меньше чем пороговое значение. Если потерянный P-й кадр является кратно-гармоническим кадром то кадры от (P−K)-го до (P−2)-го кадров в области MDCT-MDST используются для предсказания потерянного P-ого кадра. Спектральный коэффициент является пиком, если его энергетический спектр больше чем два соседних коэффициента энергетического спектра. Псевдо спектр как описан в ссылке [13] используется для (P−1)-ого кадра.
Множество спектральных коэффициентов Sc строится из L1 кадров энергетического спектра, как изложено ниже:
Получение L1 множеств S1..., SL1, составленных из пиков в каждом из L1 кадров, числом пиков в каждом множестве является N1..., NL1 соответственно. Выбор множества Si из L1 множеств S1...,SL1. Для каждого коэффициента mj, j=1...Ni, пика в множестве S1, принятие решения, имеется ли какой-либо частотный коэффициент среди mj, mj±1..., mj±k, принадлежащий всем другим множествам пиков. Если какой-либо коэффициент имеется, помещение всех частот mj, mj±1..., mj±k в множество SC частот. Если не имеется частотного коэффициента, принадлежащего всем другим множествам пиков, непосредственное помещение всех частотных коэффициентов в кадре в множество SC частот. Упомянутый k является неотрицательным целым числом. Для всех спектральных коэффициентов в множестве SC фазу предсказывают, используя L2 кадров среди кадров MDCT-MDST от (P−K)-ого до (P−2)-ого. Предсказание делают, используя линейную экстраполяцию (когда L2=2) или линейное приближение (когда L2>2). Для линейной экстраполяции:
Figure 00000069
где p, t1 и t2 являются индексами кадров.
Спектральные коэффициенты, не находящиеся в множестве SC, получают, используя множество кадров до (P−1)-ого кадра, без конкретного пояснения каким образом.
Объект настоящего изобретения состоит в обеспечении улучшенного подхода для получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Этот объект достигается посредством способа по п.1, некратковременного компьютерного программного продукта по п.34, устройства по п.35 или по п.36, кодера аудио по п.37, приемника аудио по п.38 и системы для передачи аудиосигналов по п.39.
Настоящее изобретение обеспечивает способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала, способ содержит:
детектирование тонального компонента спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру;
для тонального компонента спектра, предсказание спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра; и
для нетонального компонента спектра, использование непредсказываемого спектрального коэффициента для заменяющего кадра или соответствующего спектрального коэффициента для кадра, предшествующего заменяющему кадру.
Настоящее изобретение обеспечивает устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, устройство содержит:
детектор, сконфигурированный для детектирования тонального компонента спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру; и
блок предсказания, сконфигурированный для предсказания для тонального компонента спектра спектральных коэффициентов для пика и его окружения в спектре заменяющего кадра;
при этом для нетонального компонента спектра используется непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующий спектральный коэффициент кадра, предшествующего заменяющему кадру.
Настоящее изобретение обеспечивает устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, устройство, конфигурируемое для действия по новому способу получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Настоящее изобретение обеспечивает декодер аудио, содержащий новое устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Настоящее изобретение обеспечивает приемник аудио, содержащий новый декодер аудио.
Настоящее изобретение обеспечивает систему для передачи аудиосигналов, система содержит:
кодер, сконфигурированный для генерирования кодированного аудиосигнала; и
новый декодер, сконфигурированный для приема кодированного аудиосигнала и декодирования кодированного аудиосигнала.
Настоящее изобретение обеспечивает невременный компьютерный программный продукт, содержащий компьютерно-читаемый носитель, сохраняющий инструкции, которые при исполнении на компьютере выполняют новый способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала.
Новый подход является полезным, поскольку он обеспечивает хорошее маскирование потери кадра для тональных сигналов с хорошим качеством и без внесения дополнительной задержки. Новый кодек с малой задержкой является полезным, поскольку он работает хорошо и на речевых, и на звуковых сигналах и извлекает преимущество, например, в предрасположенной к ошибкам среде, из хорошего маскирования потери кадра, которое достигается конкретно для стационарных тональных сигналов. Предложено маскирование потери кадра без задержки для монофонических и полифонических сигналов, которое дает хорошие результаты для тональных сигналов без ухудшения качества нетональных сигналов.
В соответствии с вариантами осуществления настоящего изобретения, обеспечивается улучшенное маскирование тональных компонентов в области MDCT. Варианты осуществления относятся к кодированию аудио и речи, которое включает в себя кодек частотной области или коммутируемый кодек речи/частотной области, в частности к маскированию потери кадра в области MDCT (модифицированное дискретное косинусное преобразование). Изобретение, в соответствии с вариантами осуществления, предлагает не имеющий задержки способ создания спектра MDCT для потерянного кадра на основании ранее принятых кадров, где последний принятый кадр кодирован в частотной области с использованием MDCT.
В соответствии с предпочтительными вариантами осуществления, новый подход включает в себя детектирование частей спектра, которые являются тональными, например, с использованием предпоследнего комплексного спектра, чтобы получить корректное местоположение или место пика, с использованием последнего действительного спектра для уточнения решения, если элемент сигнала является тональным, и с использованием информации основного тона для лучшего детектирования либо начала, либо смещения тона, причем информация основного тона является либо уже присутствующей в потоке битов, или выводимой на стороне декодера. Кроме того, новый подход включает в себя предоставление адаптивной к сигналу ширины гармоники, подлежащей маскированию. Вычисление фазового сдвига или разности фаз между кадрами каждого спектрального коэффициента, являющегося частью гармоники, также обеспечивается, причем это вычисление основано на последнем доступном спектре, например, спектре Комплексного модифицированного дискретного косинусного преобразования (CMDCT), без предпоследнего CMDCT. В соответствии с вариантами осуществления, разность фаз уточняют, используя последний принятый спектр MDCT, и уточнение может быть адаптируемым, зависеть от числа последовательно потерянных кадров. Спектр CMDCT может строиться из декодированного сигнала во временной области, каковое является полезным, поскольку устраняет потребность какой-либо синхронизации с кадрированием кодека, и это позволяет создание комплексного спектра насколько возможно близким к потерянному кадру путем применения характеристик окон с малым перекрытием. Варианты осуществления изобретения обеспечивают покадровое принятие решения относительно использования маскирования или во временной области, или в частотной области.
Подход согласно настоящему изобретению является полезным, поскольку он работает полностью на основе информации, уже доступной на стороне приемника, при определении, что кадр был потерян или подлежит замене, и нет необходимости в дополнительной вспомогательной информации, которая должна быть получена так, чтобы не было также какого-либо источника для дополнительных задержек, которые имеют место в подходах предшествующего уровня техники, при условии необходимости или принимать дополнительную вспомогательную информацию, или выводить дополнительную вспомогательную из имеющейся в распоряжении информации.
Новый подход является полезным в сравнении с вышеописанными подходами известного уровня техники, поскольку изложенные далее в общих чертах недостатки таких подходов, которые были выявлены авторами настоящего изобретения, устраняются путем применения нового подхода.
Способы маскирования потери кадра, описанные в ссылке [1], не являются достаточно устойчивыми и не дают достаточно хорошие результаты для тональных сигналов.
Экстраполяция формы волны сигнала во временной области, как описано в ссылке [2], не может обрабатывать полифонические сигналы и требует повышенной сложности для маскирования весьма стационарных тональных сигналов, поскольку должен быть определен точный интервал запаздывания основного тона.
В ссылке [3] вносится дополнительная задержка и требуется значительная вспомогательная информация. Выбор тонального компонента является очень простым и будет выбирать многие пики из числа нетональных компонентов.
Способ, описанный в ссылке [4], требует упреждения на стороне декодера и, следовательно, вносит дополнительную задержку в один кадр. Использование сглаженного энергетического псевдоспектра для детектирования пика снижает точность определения позиции пиков. Это также снижает надежность детектирования, поскольку будет обнаруживать из шума пики, которые появляются только в одном кадре.
Способ, описанный в ссылке [6], требует упреждения на стороне декодера и, следовательно, вносит дополнительную задержку в два кадра. Выбор тонального компонента не проверяет тональные компоненты в двух кадрах отдельно, а основывается на усредненном спектре, и таким образом будет иметь или слишком много ложных утверждений или ложных отрицаний, делая невозможным подстройку пороговых значений детектирования пиков. Определение местоположения пиков не будет точным, поскольку используется энергетический псевдоспектр. Ограниченный спектральный диапазон для поиска пиков похож на прием с обходом для описываемых проблем, которые возникают, поскольку используется энергетический псевдоспектр.
Способ, описанный в ссылке [7], основан на способе, описанном в ссылке [6], и, следовательно, имеет такие же недостатки; он лишь устраняет дополнительную задержку.
В ссылке [8] нет подробного описания решения относительно принадлежности спектрального коэффициента тональной части сигнала. Однако синергическая связь между детектированием тональных спектральных коэффициентов и маскированием является важной, и таким образом важно хорошее детектирование тональных компонентов. Кроме того, не было выявлено использование фильтров, зависимых от и
Figure 00000070
, и
Figure 00000071
(то есть
Figure 00000072
, и
Figure 00000073
, поскольку
Figure 00000074
можно вычислить, если доступны
Figure 00000075
и
Figure 00000076
) для вычисления
Figure 00000077
и
Figure 00000078
. Кроме того, не было выявлено использование возможности вычислять комплексный спектр, который не синхронизирован с кадрированием кодированного сигнала, которое дается при окнах с малым перекрытием. Кроме того, не было выявлено использование возможности вычислять разность фаз между кадрами только на основании предпоследнего комплексного спектра.
В ссылке [12], по меньшей мере, три предшествующих кадра должны сохраняться в памяти, тем самым значительно повышая требования к памяти. Решение, использовать ли тональное маскирование, может быть ошибочным, и кадр с одной или большим числом гармоник может быть классифицирован как кадр без кратных гармоник. Последний принятый кадр MDCT напрямую не используется для улучшения предсказания потерянного спектра MDCT, а только в поиске тональных компонентов. Число коэффициентов MDCT, подлежащих маскированию для гармоники, является фиксированным, однако, в зависимости от уровня шума, желательно иметь переменное число коэффициентов MDCT, которые составляют одну гармонику.
В последующем варианты осуществления настоящего изобретения будут описаны с дополнительными подробностями со ссылкой на сопроводительные чертежи, на которых:
Фиг.1 - иллюстрация упрощенной блок-схемы системы для передачи аудиосигналов, реализующей новый подход на стороне декодера,
Фиг.2 - иллюстрация структурной схемы нового подхода в соответствии с вариантом осуществления воплощением,
Фиг.3 - схематичное представление перекрывающихся окон MDCT для соседних кадров,
Фиг.4 - иллюстрация структурной схемы, представляющей этапы для отбора пика в соответствии с вариантом осуществления,
Фиг.5 - схематичное представление энергетического спектра кадра, из которого детектируют один или несколько пиков,
Фиг.6 - иллюстрация примера для “промежуточного кадра”,
Фиг.7 - иллюстрация блок-схемы, представляющей интерполяционный подход без передаваемой вспомогательной информации, и
Фиг.8 - иллюстрация блок-схемы общего способа FLC, уточненного по сравнению с Фиг.7.
В последующем варианты осуществления нового подхода будут описаны с дополнительными подробностями, и отмечается, что на сопроводительных чертежах элементы, имеющие одинаковую или сходную функциональность, обозначаются одинаковыми ссылочными знаками. В последующих вариантах осуществления нового подхода будет описано, в соответствии с каковым маскирование выполняют в частотной области, только если последние два принятых кадра кодированы с использованием MDCT. Подробности принятия решения об использовании маскирования во временной или частотной области относительно потери кадра после приема двух кадров MDCT также будут описаны. Относительно вариантов осуществления, описанных в последующем, отмечается, что требование кодирования последних двух кадров в частотной области не снижает применимость нового подхода поскольку в коммутируемом кодеке частотная область будет использоваться для стационарных тональных сигналов.
Фиг.1 иллюстрирует упрощенную блок-схему системы для передачи аудиосигналов, реализующей новый подход на стороне декодера. Система содержит кодер 100, принимающий на входе 102 аудиосигнал 104. Кодер сконфигурирован, чтобы формировать на основе принятого аудиосигнала 104 кодированный аудиосигнал, который обеспечивается на выходе 106 кодера 100. Кодер может обеспечивать кодированный аудиосигнал таким образом, что кадры аудиосигнала кодированы с использованием MDCT. В соответствии с вариантом осуществления кодер 100 содержит антенну 108, чтобы позволять беспроводную передачу аудиосигнала, как указано в ссылочном знаке 110. В других вариантах осуществления кодер может выводить кодированный аудиосигнал, обеспечиваемый на выходе 106, через линию проводного соединения, как это, например, указано в ссылочном знаке 112.
Система дополнительно содержит декодер 120, имеющий вход 122, на котором принимают кодированный аудиосигнал, обеспечиваемый кодером 106. Кодер 120 может содержать, в соответствии с вариантом осуществления, антенну 124 для приема беспроводной передачи 110 от кодера 100. В другом варианте осуществления вход 122 может обеспечивать соединение с проводной передачей 112 для приема кодированного аудиосигнала. Аудиосигнал, принятый на входе 122 декодера 120, подается на детектор 126, который определяет, нуждается ли в замене кодированный кадр принятого аудиосигнала, подлежащий декодированию декодером 120. Например, в соответствии с вариантами осуществления, это может быть случаем, когда детектор 126 определяет, что кадр, который должен следовать за предшествующим кадром, не принят в декодере, или когда определяют, что принятый кадр имеет ошибки, каковое препятствует его декодированию на стороне декодера 120. В случае если в детекторе 126 определено, что кадр, представленный для декодирования, является пригодным, кадр будет пересылаться на блок 128 декодирования, где декодирование кодированного кадра выполняется с тем результатом, что на выходе декодера 130 может выводиться поток декодированных аудио кадров или декодированного аудиосигнала 132.
В случае если в блоке 126 определено, что кадр, который в настоящий момент подлежит обработке, нуждается в замене, кадры, предшествующие текущему кадру, требующему замены, и которые могут буферизоваться в схеме 126 детектора, предоставляются на тональный детектор 134, определяющий, включает или не включает спектр замены тональные компоненты. В случае если тональные компоненты обеспечены, это указывается на блок 136 памяти/генератора шума, который формирует спектральные коэффициенты, являющиеся непредсказываемыми коэффициентами, которые могут формироваться с использованием генератора шума или другого традиционного способа генерирования шума, например, скремблирования со знаком и т.п. Альтернативно, также предварительно определенные спектральные коэффициенты для нетональных компонентов спектра могут быть получены из памяти, например, из таблицы поиска. Альтернативно, когда определяют, что спектр не содержит тональные компоненты, вместо генерирования непредсказываемых спектральных коэффициентов, могут быть выбраны соответствующие спектральные характеристики одного из кадров, предшествующих замене.
В случае если тональный детектор 134 обнаруживает, что спектр включает в себя тональные компоненты, соответственный сигнал указывается блоку 138 предсказания, предсказывающему, в соответствии с вариантами осуществления настоящего изобретения, описанными далее, спектральные коэффициенты для заменяющего кадра. Соответственные коэффициенты, определенные для заменяющего кадра, предоставляются на блок 128 декодирования, где на основе этих спектральных коэффициентов выполняется декодирование потерянного или заменяющего кадра.
Как показано на Фиг.1, тональный детектор 134, генератор 136 шума и блок 138 предсказания определяют устройство 140 для получения спектральных коэффициентов для заменяющего кадра в декодере 120. Изображенные элементы могут быть реализованы с использованием аппаратных и/или программных компонентов, например, надлежаще запрограммированных устройств обработки.
Фиг.2 иллюстрирует структурную схему нового подхода в соответствии с вариантом осуществления. На первом этапе S200 принимают кодированный аудиосигнал, например, в декодере 120, как изображено на Фиг.1. Принятый аудиосигнал может быть в форме соответственных аудио кадров, которые кодированы с использованием MDCT.
На этапе S202 определяют, требует ли замены текущий кадр, подлежащий обработке декодером 120ь. Заменяющий кадр может быть необходимым на стороне декодера, например, в случае, если кадр не может быть обработан из-за ошибки в принятых данных или подобного, или в случае, если кадр был потерян в ходе передачи на приемник/декодер 120, или в случае, если кадр не был принят вовремя в приемнике 120 аудиосигнала, например, из-за задержки в ходе передачи кадра со стороны кодера на сторону декодера.
В случае если на этапе S202 определяют, например, посредством детектора 126 в декодере 120, что кадр, который в настоящий момент подлежит обработке декодером 120, должен быть заменен, способ переходит на этап S204, на котором делают дополнительное определение, требуется ли маскирование в частотной области. В соответствии с вариантом осуществления, если информация основного тона имеется для последних двух принятых кадров, и если основной тон не изменяется, на этапе S204 определяют, что требуется маскирование в частотной области. Иначе, определяют, что следует применить маскирование во временной области. В альтернативном варианте осуществления основной тон можно вычислять на основе подкадра с использованием декодированного сигнала, и вновь с использованием решения, что в случае, если основной тон присутствует, и в случае, если он является постоянным в подкадрах, используется маскирование в частотной области, иначе применяется маскирование во временной области.
В еще одном варианте осуществления настоящего изобретения может обеспечиваться детектор, например, детектор 126 в декодере 120, и может быть сконфигурирован таким образом, что он дополнительно анализирует спектр предпоследнего кадра, или последнего кадра или обоих этих кадров, предшествующих заменяющему кадру, и решает на основании найденных пиков, является ли сигнал монофоническим или полифоническим. В случае если сигнал является полифоническим, маскирование в частотной области должно использоваться независимо от присутствия информации основного тона. Альтернативно, детектор 126 в декодере 120 может быть сконфигурирован таким образом, что он дополнительно анализирует один или большее число кадров, предшествующих заменяющему кадру, чтобы указать, превышает ли число тональных компонентов в сигнале предварительно определенное пороговое значение или нет. В случае если число тональных компонентов в сигнале превышает пороговое значение, будет использоваться маскирование в частотной области.
В случае если на этапе S204 определяют, что должно использоваться маскирование в частотной области, например, путем применения вышеупомянутых критериев, способ переходит на этап S206, где тональная часть или тональный компонент спектра аудиосигнала детектируют на основании одного или большего числа пиков, которые присутствуют в спектрах предшествующих кадров, а именно, одного или большего числа пиков, которые присутствуют по существу в той же позиции в спектре предпоследнего кадра и спектре последнего кадра, предшествующих заменяющему кадру. На этапе S208 определяют, имеется ли тональная часть спектра. В случае если имеется тональная часть спектра, способ переходит на этап S210, где один или большее число спектральных коэффициентов для одного или большего числа пиков и их окружений в спектре заменяющего кадра предсказывают, например, на основе информации, получаемой из предшествующих кадров, а именно, предпоследнего кадра и последнего кадра. Спектральный(е) коэффициент(ы), предсказанный на этапе S210, передают, например, на блок 128 декодирования, показанный на Фиг.1, так что, как показано на этапе 212, может выполняться декодирование кадра кодированного аудиосигнала на основе спектральных коэффициентов от этапа 210.
В случае если на этапе S208 определяют, что не имеется тональной части спектра, способ переходит на этап S214, используя непредсказываемый спектральный коэффициент для заменяющего кадра или соответствующий спектральный коэффициент кадра, предшествующего заменяющему кадру, которые предоставляются на этап S212 для декодирования кадра.
В случае если на этапе S204 определяют, что маскирование в частотной области не требуется, способ переходит на этап S216, где выполняется традиционное маскирование во временной области для кадра, который подлежит замене, и на основе спектральных коэффициентов, сформированных процессом на этапе S216, кадр кодированного сигнала декодируется на этапе S212.
В случае если на этапе S202 определяют, что нет заменяющего кадра в текущем обрабатываемом аудиосигнале, то есть обрабатываемый в текущий момент кадр может быть полностью декодирован с использованием традиционных подходов, способ непосредственно переходит на этап S212 для декодирования кадра кодированного аудиосигнала.
В последующем будет описана более подробная информация в соответствии с вариантами осуществления настоящего изобретения.
Вычисление энергетического спектра
Для предпоследнего кадра, индексированного
Figure 00000079
, MDST-коэффициенты
Figure 00000080
вычисляют непосредственно из декодированного сигнала временной области.
Для последнего кадра используется оценка спектра MDST, которую вычисляют их MDCT коэффициентов
Figure 00000081
последнего принятого кадра (см. например, ссылку [13]):
Figure 00000082
Энергетические спектры для кадров
Figure 00000083
и
Figure 00000084
вычисляют, как изложено ниже:
Figure 00000085
Figure 00000086
причем:
Figure 00000087
- коэффициент MDST в кадре m-1,
Figure 00000088
- коэффициент MDCT в кадре m-1,
Figure 00000089
- коэффициент MDST в кадре m-2 и
Figure 00000090
- коэффициент MDCT в кадре m-2.
Полученные энергетические спектры сглаживают, как изложено ниже:
Figure 00000091
Figure 00000092
Детектирование тональных компонентов
Пики, присутствующие в последних двух кадрах (
Figure 00000093
и
Figure 00000094
), рассматривают в качестве представителей тональных компонентов. Постоянное присутствие пиков позволяет различение между тональными компонентами и произвольно появляющимися пиками в сигналах с шумами.
Информация основного тона
Полагают, что информация основного тона является доступной:
вычисленной на стороне кодера и доступной в потоке битов, или
вычисленной на стороне декодера.
Информация основного тона используется, только если удовлетворяются все следующие условия:
коэффициент усиления основного тона больше чем нуль;
задержка основного тона является постоянной в последних двух кадрах;
основная частота больше чем 100 Гц.
Основную частоту вычисляют из запаздывания основного тона:
Figure 00000095
Если имеется
Figure 00000096
, для которого N>5 гармоник являются самыми сильными в спектре, то
Figure 00000097
устанавливают в
Figure 00000098
.
Figure 00000099
не является надежным, если имеются недостаточно сильные пики в позициях гармоник
Figure 00000100
.
В соответствии с вариантом осуществления, информацию основного тона вычисляют на основе кадрирования, синхронизированного по правой границе окна MDCT, показанного на Фиг.3. Такое совмещение является полезным для экстраполяции тональных частей сигнала, поскольку область 300 перекрытия, являясь частью, которая требует маскирования, также используется для вычисления запаздывания основного тона.
В другом варианте осуществления информация основного тона может передаваться в потоке битов и использоваться кодеком в «чистом» канале и таким образом происходит без дополнительных затрат на маскирование.
Огибающая
В последующем описывается процедура для получения огибающей спектра, которая необходима для описанного далее отбора пика.
Огибающую каждого энергетического спектра в последних двух кадрах вычисляют, используя фильтр скользящего среднего, имеющего длину
Figure 00000101
:
Figure 00000102
Длина фильтра зависит от основной частоты (и может быть ограничена интервалом [7,23]):
Figure 00000103
Эта связь между
Figure 00000104
и
Figure 00000105
является подобной процедуре, описанной в ссылке [14], однако, в настоящем изобретении, используется информация основного тона из текущего кадра, которая включает в себя упреждение, причем в ссылке [14] используется средний основной тон, специфический для говорящего. Если основная частота не является доступной или надежной, длину
Figure 00000106
фильтра устанавливают в 15.
Таким образом, в соответствии с вариантами осуществления, основная частота предназначена для сигнала, включающего в себя последний кадр (m-1), предшествующий заменяющему кадру (m), и упреждения последнего кадра (m-1), предшествующего заменяющему кадру (m). Упреждение последнего кадра (m-1), предшествующего заменяющему кадру (m), может вычисляться на стороне кодера, используя упреждение.
Отбор пика
Сначала осуществляют поиск пиков в энергетическом спектре кадра
Figure 00000107
на основании предварительно определенных пороговых значений. На основании расположения пиков в кадре
Figure 00000108
, Пороговые значения адаптируют для поиска в энергетическом спектре кадра
Figure 00000109
. Таким образом находят пики, которые присутствуют в обоих кадрах (
Figure 00000110
и
Figure 00000111
), но точное определение местоположения основывается на энергетическом спектре в кадре
Figure 00000112
. Эта очередность является важной, поскольку энергетический спектр в кадре
Figure 00000113
вычисляют, используя только оценку MDST, и таким образом определение позиции пика не является точным. Также важно, что используется MDCT кадра
Figure 00000114
, поскольку нежелательно продолжать рассмотрение тональных сигналов, которые присутствуют только в кадре
Figure 00000115
, а не в кадре
Figure 00000116
. Фиг.4 иллюстрирует структурную схему, представляющую вышеупомянутые этапы для отбора пика в соответствии с вариантом осуществления. На этапе S400 осуществляют поиск пиков в энергетическом спектре последнего кадра
Figure 00000110
, предшествующего заменяющему кадру, на основании одного или большего числа предварительно определенных пороговых значений. На этапе S402 адаптируют одно или несколько пороговых значений. На этапе S404 осуществляют поиск пиков в энергетическом спектре предпоследнего кадра
Figure 00000112
, предшествующего заменяющему кадру, на основании одного или нескольких адаптированных пороговых значений.
Фиг.5 является схематичным представлением энергетического спектра кадра, из которого детектируют один или большее число пиков. На Фиг.5 показана огибающая 500, которая может быть определена, как в общих чертах изложено выше, или которая может быть определена согласно другим известным подходам. Показан ряд пиков-кандидатов, которые представлены окружностями на Фиг.5. Нахождение пика, среди пиков-кандидатов, будет описано ниже с дополнительными подробностями. Фиг.5 иллюстрирует пик 502, который был найден, а также ложный пик 504 и пик 506, представляющий шум. Кроме того, показываются левое основание 508 и правое основание 510 спектрального коэффициента.
В соответствии с вариантом осуществления, нахождение пиков в энергетическом спектре
Figure 00000117
последнего кадра
Figure 00000110
, предшествующего заменяющему кадру, выполняют с использованием следующих этапов (этап S400 на Фиг.4):
спектральный коэффициент классифицируют как тональный пик-кандидат, если удовлетворены все следующие критерии:
- отношение между сглаженным энергетическим спектром и огибающей 500 больше, чем некоторое пороговое значение:
Figure 00000118
,
- отношение между сглаженным энергетическим спектром и огибающей 500 больше, чем ее окружающих соседей, означая, что это является локальным максимумом,
локальные максимумы определяют путем нахождения левого основания 508 и правого основание 510 спектрального коэффициента k и нахождения максимума между левым основанием 508 и правым основанием 510. Этот этап, как может быть видно на Фиг.4, требуется там, где ложный пик 504 может быть обусловлен боковым лепестком или шумом квантования.
Пороговые значения для поиска пика в энергетическом спектре
Figure 00000119
предпоследнего кадра
Figure 00000120
устанавливают, как изложено ниже (этап S402 на Фиг.4):
в коэффициентах
Figure 00000121
спектра вблизи пика с индексом
Figure 00000122
в
Figure 00000123
:
Figure 00000124
,
если
Figure 00000125
является доступным и надежным, то для каждого
Figure 00000126
устанавливают
Figure 00000127
и
Figure 00000128
:
Figure 00000129
Figure 00000130
Figure 00000131
,
если
Figure 00000132
вблизи пика с индексом
Figure 00000133
в
Figure 00000134
, то пороговые значения, установленные на первом этапе, перезаписывают,
для всех других индексов:
Figure 00000135
Тональные пики находят в энергетическом спектре
Figure 00000119
предпоследнего кадра
Figure 00000120
согласно следующим этапам (этап S404 на Фиг.4):
спектральный коэффициент классифицируют как тональный пик, если:
- отношение энергетического спектра и огибающей больше, чем пороговое значение:
Figure 00000136
,
- отношение энергетического спектра и огибающей больше, чем у его соседей окружения, означая, что он является локальным максимумом,
локальные максимумы определяют путем нахождения левого основания 508 и правого основания 510 спектрального коэффициента k и нахождения максимума между левым основанием 508 и правым основанием 510,
Левое основание 508 и правое основание 510 также задают окружение тональных пиков 502, то есть, спектральные элементы- выборки тонального компонента, где будет использоваться способ тонального маскирования.
Использование вышеописанного способа показывает, что правый пик 506 на Фиг.4 присутствуют только в одном из кадров, то есть, он не присутствует в обоих из кадров
Figure 00000137
или
Figure 00000138
. Следовательно, этот пик помечается как шум и не выбирается в качестве тонального компонента.
Извлечение синусоидального параметра
Для синусоидального сигнала
Figure 00000139
сдвиг на N/2 (размер диапазона для MDCT) приводит к сигналу
Figure 00000140
Таким образом, имеется фазовый сдвиг
Figure 00000141
, где
Figure 00000142
- индекс пика. Следовательно, фазовый сдвиг зависит от дробной части входной частоты плюс добавочное прибавление
Figure 00000143
для нечетных спектральных коэффициентов.
Дробная часть частоты
Figure 00000144
может быть получена с использованием способа, описанного, например, в ссылке [15]:
при условии, что амплитуда сигнала в поддиапазоне
Figure 00000145
является локальным максимумом,
Figure 00000146
можно определить путем вычисления отношения амплитуд сигнала в поддиапазонах
Figure 00000147
и
Figure 00000148
, то есть, оцениванием:
Figure 00000149
где используется приближение характеристики величины окна:
Figure 00000150
где b - ширина основного лепестка. Константа G в этом выражении была установлена в 27,4/20,0 для того, чтобы минимизировать максимальную абсолютную погрешность оценки,
подстановка приближенной частотной характеристики и допущение
Figure 00000151
Figure 00000152
приводит к:
Figure 00000153
.
Предсказание MDCT
Для всех найденных пиков спектра и их окружений, используется предсказание MDCT. Для всех других спектральных коэффициентов может использоваться скремблирование со знаком или подобный способ генерирования шума.
Все спектральные коэффициенты, принадлежащие найденным пикам и их окружениям, принадлежат множеству, которое обозначено как
Figure 00000154
. Например, на Фиг.5 пик 502 был идентифицирован как пик, представляющий тональный компонент. Окружение пика 502 может быть представлено предварительно определенным числом соседних спектральных коэффициентов, например, спектральными коэффициентами между левым основанием 508 и правым основанием 510 плюс коэффициенты оснований 508, 510.
В соответствии с вариантами осуществления, окружение пика задают предварительно определенным числом коэффициентов вблизи пика 502. Окружение пика может содержать первое число коэффициентов слева от пика 502 и второе число коэффициентов справа от пика 502. Первое число коэффициентов слева от пика 502 и второе числа коэффициентов справа от пика 502 могут быть равными или различными.
В соответствии с вариантами осуществления, применяющими стандарт EVS, предварительно определенное число соседних коэффициентов может быть установлено или зафиксировано на первом этапе, например, до детектирования тонального компонента. В стандарте EVS могут использоваться три коэффициента слева от пика 502, три коэффициента справа и пик 502, то есть, всего в совокупности семь коэффициентов (это число было выбрано по причинам сложности, однако, любое другое число также будет работать). Таким образом, в соответствии с вариантами осуществления, предварительно определенное число коэффициентов вблизи пика 502 задается до этапа детектирования тонального компонента.
В соответствии с вариантами осуществления, размер окружения пика является адаптируемым. Окружения пиков, идентифицированные в качестве представляющих тональный компонент, может быть модифицировано так, что окружения вблизи двух пиков не перекрываются. В соответствии с вариантами осуществления, пик всегда рассматривается только со своим окружением, и они вместе задают тональный компонент.
Для предсказания коэффициентов MDCT в потерянном кадре используется энергетический спектр (амплитуда комплексного спектра) в предпоследнем кадре:
Figure 00000155
.
Потерянный MDCT-коэффициент в заменяющем кадре оценивают как:
Figure 00000156
.
В последующем будет описан способ вычисления фазы
Figure 00000157
в соответствии с вариантом осуществления.
Предсказание фазы
Для каждого найденного пика спектра дробную частоту
Figure 00000158
вычисляют, как описано выше, и фазовый сдвиг являет собой:
Figure 00000159
.
Figure 00000160
представляет фазовый сдвиг между кадрами. Он является равным для коэффициентов в пике и его окружении.
Фазу для каждого спектрального коэффициента в позиции пика и окружениях
Figure 00000161
вычисляют в предпоследнем принятом кадре, используя выражение:
Figure 00000162
Фазу в потерянном кадре предсказывают в виде:
Figure 00000163
В соответствии с вариантом осуществления, может использоваться уточненный фазовый сдвиг. Использование вычисленной фазы
Figure 00000164
для каждого спектрального коэффициента в позиции пика и окружений позволяет оценку MDST в кадре
Figure 00000165
, которая может быть получена в виде:
Figure 00000166
при:
Figure 00000167
- энергетический спектр (амплитуда комплексного спектра) в кадре m-2.
Исходя из этой оценки MDST и из принятого MDCT получают оценку фазы в кадре
Figure 00000168
:
Figure 00000169
.
Оцененная фаза используется для уточнения фазового сдвига:
Figure 00000170
причем:
Figure 00000171
- фаза комплексного спектра в кадре m-1 и
Figure 00000172
- фаза комплексного спектра в кадре m-2.
Фазу в потерянном кадре предсказывают в виде:
Figure 00000173
.
Уточнение фазового сдвига в соответствии с этим вариантом осуществления улучшает предсказание синусоид в присутствии фонового шума или если изменяется частота синусоиды. Для неперекрывающихся синусоид с постоянной частотой и без фонового шума фазовый сдвиг является одинаковым для всех коэффициентов MDCT, которые окружают пик.
Маскирование, которое используется, может иметь различные скорости замирания для тональной части и для шумовой части. Если скорость замирания для тональной части сигнала снижается после множественных потерь кадров, то тональная часть становится доминирующей. Флуктуации в синусоиде, которые происходят из-за различных фазовых сдвигов синусоидальных компонентов, создают неприятные артефакты.
Чтобы решить эту проблему, в соответствии с вариантами осуществления, начиная с третьего потерянного кадра, разность фаз для пика (с индексом k) используется для всех спектральных коэффициентов его окружения (
Figure 00000174
- индекс левого основания и
Figure 00000175
- индекс правого основания):
Figure 00000176
.
В соответствии с дополнительными вариантами осуществления обеспечивается преобразование. Спектральные коэффициенты во втором потерянном кадре с высоким затуханием используют разность фаз из пика, и коэффициенты с малым затуханием используют скорректированную разность фаз:
Figure 00000177
Figure 00000178
Figure 00000179
.
Уточнение амплитуды
В соответствии с другими вариантами осуществления, вместо применения вышеописанного уточнения фазового сдвига, может быть применен другой подход, который использует уточнение амплитуды:
Figure 00000180
Figure 00000181
где
Figure 00000182
является индексом пика, дробную частоту
Figure 00000183
вычисляют, как описано выше. Фазовым сдвигом является:
Figure 00000184
Чтобы избежать повышения энергии, уточненная амплитуда, в соответствии с дополнительными вариантами осуществления, может ограничиваться амплитудой из предпоследнего кадра:
Figure 00000185
Кроме того, в соответствии с еще дополнительными вариантами осуществления, уменьшение амплитуды может использоваться для его затухания:
Figure 00000186
.
Предсказание фазы с использованием “промежуточного кадра”
Вместо базирования предсказания спектральных коэффициентов на кадрах, предшествующих заменяющему кадру, в соответствии с другими вариантами осуществления, предсказание фазы может использовать “кадр-посредник” (также называемый "прмежуточным" кадром). Фиг.6 иллюстрирует пример для “кадра-посредника”. На Фиг.6 последний кадр 600 (
Figure 00000110
), предшествующий заменяющему кадру, предпоследний кадр 602 (
Figure 00000187
), предшествующий заменяющему кадру, и кадру-посреднику 604 (
Figure 00000188
), показаны вместе со связанными с ними окнами 606 - 610 MDCT.
Если перекрытие окна MDCT составляет менее чем 50%, является возможным получить спектр CMDCT более близким к потерянному кадру. На Фиг.6 изображен пример с перекрытием окна MDCT в 25%. Это позволяет получать спектр CMDCT для кадра-посредника 604
Figure 00000189
, используя показанное заштрихованным окно 610, которое равно окну 606 или 608 MDCT, но со сдвигом на половину длины кадра от кадрирования кодеком. Поскольку кадр-посредник 604 (
Figure 00000190
) ближе во времени к потерянному кадру (m), его характеристики спектра будут более сходными с характеристиками спектра потерянного кадра (m), чем спектральные характеристики между предпоследним кадром 602 (
Figure 00000187
) и потерянным кадром (m).
В этом варианте осуществления вычисление и MDST коэффициентов
Figure 00000191
, и MDCT коэффициентов
Figure 00000192
делается непосредственно из декодированного сигнала временной области, с помощью MDST и MDCT, составляющих CMDCT. Альтернативно CMDCT можно получит, используя матричные операции, из соседних присутствующих коэффициентов MDCT.
Вычисление энергетического спектра выполняют, как описано выше, и детектирование тональных компонентов выполняют, как описано выше, при m-2-ом кадре, заменяемым кадром m-1,5.
Для синусоидального сигнала
Figure 00000193
сдвиг в N/4 (размер интервала MDCT), приводит к сигналу
Figure 00000194
Это приводит к фазовому сдвигу
Figure 00000195
. Следовательно, фазовый сдвиг зависит от дробной части входной частоты плюс дополнительное прибавление
Figure 00000196
, где
Figure 00000197
- индекс пика. Детектирование дробной частоты выполняют, как описано выше.
Для предсказания коэффициентов MDCT в потерянном кадре используется амплитуда из кадра m-1,5:
Figure 00000198
.
Потерянный коэффициент MDCT оценивают как:
Figure 00000199
.
Фаза
Figure 00000200
может быть вычислена с использованием:
Figure 00000201
Figure 00000202
Кроме того, в соответствии с вариантами осуществления, может применяться уточнение фазового сдвига, описанное выше:
Figure 00000203
Figure 00000204
Figure 00000205
Figure 00000206
.
Кроме того сходимость фазового сдвига для всех спектральных коэффициентов, окружающих пик, к фазовому сдвигу пика, может использоваться, как описано выше.
Хотя некоторые аспекты описанной идеи были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапу способа или функции этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или функции соответствующего устройства.
В зависимости от некоторых требований к реализации, варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализацию можно выполнить, используя цифровой носитель данных, например, гибкий диск, цифровой многофункциональный диск (DVD), диск по технологии Blue-Ray, компакт-диск (CD), постоянное запоминающее устройство (ROM), PROM, EPROM, EEPROM или флэш-память, с наличием хранимых там электронно-читаемых управляющих сигналов, которые действуют совместно (или способны к совместному действию) с программируемой компьютерной системой таким образом, что выполняется соответственный способ. Следовательно, цифровой носитель данных может быть компьютерно-читаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель информации с наличием электронно-читаемых управляющих сигналов, которые способны к совместному действию с программируемой компьютерной системой таким образом, что выполняется соответственный способ.
Обычно, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с кодом программы, код программы является рабочим для выполнения одного из способов при исполнении компьютерного программного продукта на компьютере. Код программы может, например, сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в данном документе способов, сохраненную на машиночитаемом носителе.
Другими словами, вариантом осуществления нового способа является, следовательно, компьютерная программа, имеющая код программы для выполнения одного из описанных в данном документе способов, когда компьютерная программа работает на компьютере.
Дополнительным вариантом осуществления способов по изобретению является, следовательно, носитель информации (или цифровой носитель данных, или компьютерно-читаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.
Дополнительным вариантом осуществления нового способа является, следовательно, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов могут, например, быть сконфигурированы, чтобы передаваться через соединение для передачи данных, например, через сеть Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер с установленной в нем компьютерной программой для выполнения одного из способов, описанных в данном документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая вентильная матрица) может использоваться для выполнения некоторых или всех из функциональных возможностей способов, описанных в данном документе. В некоторых вариантах осуществления программируемая вентильная матрица может действовать вместе с микропроцессором, чтобы выполнять один из способов, описанных в данном документе. Обычно, способы предпочтительно выполняются любым аппаратно-реализованным устройством.
Вышеописанные варианты осуществления являются просто пояснительными для принципов настоящего изобретения. Следует понимать, что модификации и разновидности конфигураций и деталей, описанных в данном документе, будут очевидны специалистам в данной области техники. Следовательно, ограничиваться следует только объемом прилагаемой формулы изобретения, а не конкретными подробностями, представленными посредством описания и пояснения вариантов осуществления в этом документе.
Ссылки на известный уровень техники
[1] P. Lauber and R. Sperschneider, "Error Concealment for Compressed Digital Audio," in AES 111th Convention, New York, USA, 2001.
[2] C. J. Hwey, "Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment". Патент US 6351730 B2, 2002.
[3] S. K. Gupta, E. Choy and S.-U. Ryu, "Encoder-assisted frame loss concealment techniques for audio coding". Патентная заявка US 2007/094009 A1.
[4] S.-U. Ryu and K. Rose, "A Frame Loss Concealment Technique for MPEG-AAC," in 120th AES Convention, Paris, France, 2006.
[5] ISO/IEC JTC1/SC29/WG11, Information technology - Coding of moving pictures and associated, International Organization for Standardization, 1993.
[6] S.-U. Ryu and R. Kenneth, An MDCT domain frame-loss concealment technique for MPEG Advanced Audio Coding, Department od Electrical and Computer Engineering, University of California, 2007.
[7] S.-U. Ryu, Source Modeling Approaches to Enhanced Decoding in Lossy Audio Compression and Communication, UNIVERSITY of CALIFORNIA Santa Barbara, 2006.
[8] M. Yannick, "Method and apparatus for transmission error concealment of frequency transform coded digital audio signals". Патент EP 0574288 B1, 1993.
[9] Y. Mahieux, J.-P. Petit and A. Charbonnier, "Transform coding of audio signals using correlation between successive transform blocks," in Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989.
[10] 3GPP; Technical Specification Group Services and System Aspects, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec, 2009.
[11] A. Taleb, "Partial Spectral Loss Concealment in Transform Codecs". Патент US 7356748 B2.
[12] C. Guoming, D. Zheng, H. Yuan, J. Li, J. Lu, K. Liu, K. Peng, L. Zhibin, M. Wu and Q. Xiaojun, "Compensator and Compensation Method for Audio Frame Loss in Modified Discrete Cosine Transform Domain". Патентная заявка US 2012/109659 A1.
[13] L. S. M. Dauder, "MDCT Analysis of Sinusoids: Exact Results and Applications to Coding Artifacts Reduction," IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, pp. 302-312, 2004.
[14] D. B. Paul, "The Spectral Envelope Estimation Vocoder," IEEE Transactions on Acoustics, Speech, and Signal Processing, pp. 786-794, 1981.
[15] A. Ferreira, "Accurate estimation in the ODFT domain of the frequency, phase and magnitude of stationary sinusoids," 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 47-50, 2001.

Claims (64)

1. Способ получения спектральных коэффициентов для заменяющего кадра аудиосигнала, причем способ содержит:
детектирование (S206) тонального компонента спектра аудиосигнала на основании пика (502), который присутствует в спектрах кадров (m-1, m-2), предшествующих заменяющему кадру (m);
для тонального компонента спектра, предсказание (S210) спектральных коэффициентов для пика (502) и его окружения в спектре заменяющего кадра (m); и
для нетонального компонента спектра, использование (S214) непредсказываемого спектрального коэффициента для заменяющего кадра (m) или соответствующего спектрального коэффициента кадра, предшествующего заменяющему кадру (m).
2. Способ по п.1, в котором
спектральные коэффициенты для пика (502) и его окружения в спектре заменяющего кадра (m) предсказывают на основании амплитуды комплексного спектра кадра (m-2), предшествующего заменяющему кадру (m), и предсказанной фазы комплексного спектра заменяющего кадра (m), и
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы комплексного спектра кадра (m-2), предшествующего заменяющему кадру (m), и фазового сдвига между кадрами (m-1, m-2), предшествующими заменяющему кадру (m).
3. Способ по п.2, в котором
спектральные коэффициенты для пика (502) и его окружения в спектре заменяющего кадра (m) предсказывают на основании амплитуды комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), и предсказанной фазы комплексного спектра заменяющего кадра (m), и
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m).
4. Способ по п.2, в котором фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы для каждого спектрального коэффициента в пике и его окружении в кадре (m-2), предшествующем заменяющему кадру (m).
5. Способ по п.2, в котором фазовый сдвиг между кадрами (m-1, m-2), предшествующими заменяющему кадру (m), является одинаковым для каждого спектрального коэффициента на пике и в его окружении в соответственных кадрах.
6. Способ по п.1, в котором тональный компонент задается пиком и его окружением.
7. Способ по п.1, в котором окружение пика задается предварительно определенным числом коэффициентов вблизи пика (502).
8. Способ по п.1, в котором окружение пика содержит первое число коэффициентов слева от пика (502) и второе число коэффициентов справа от пика (502).
9. Способ по п.8, в котором первое число коэффициентов содержит коэффициенты между левым основанием (508) и пиком (502) плюс коэффициент левого основания (508), и при этом второе число коэффициентов содержит коэффициенты между правым основанием (510) и пиком (502) плюс коэффициент правого основания (510).
10. Способ по п.8, в котором первое число коэффициентов слева от пика (502) и второе число коэффициентов справа от пика (502) являются одинаковыми или различными.
11. Способ по п.10, в котором первым числом коэффициентов слева от пика (502) является три, и вторым числом коэффициентов справа от пика (502) является три.
12. Способ по п.6, в котором предварительно определенное число коэффициентов вблизи пика (502) задают до этапа детектирования тонального компонента.
13. Способ по п.1, в котором размер окружения пика является адаптируемым.
14. Способ по п.13, в котором окружение пика выбирают так, что окружения вблизи двух пиков не перекрываются.
15. Способ по п.2, в котором
спектральный коэффициент для пика (502) и его окружения в спектре заменяющего кадра (m) предсказывают на основании амплитуды комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), и предсказанной фазы комплексного спектра заменяющего кадра (m),
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), и уточненного фазового сдвига между последним кадром (m-1) и предпоследним кадром (m-2), предшествующим заменяющему кадру (m),
фазу комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), определяют на основании амплитуды комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), фазы комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), фазового сдвига между последним кадром (m-1) и предпоследним кадром (m-2), предшествующим заменяющему кадру (m), и действительного спектра последнего кадра (m-1), и
уточненный фазовый сдвиг определяют на основании фазы комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), и фазы комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m).
16. Способ по п.15, в котором уточнение фазового сдвига является адаптируемым на основании числа последовательно потерянных кадров.
17. Способ по п.16, в котором, начиная с третьего потерянного кадра, фазовый сдвиг, определенный для пика, используется для предсказания спектральных коэффициентов, окружающих пик (502).
18. Способ по п.17, в котором для предсказания спектральных коэффициентов во втором потерянном кадре фазовый сдвиг, определенный для пика (502), используется для предсказания спектральных коэффициентов для спектральных коэффициентов окружения, когда фазовый сдвиг в последнем кадре (m-1), предшествующем заменяющему кадру (m), равен или ниже предварительно определенного порогового значения, и фазовый сдвиг, определенный для соответственных спектральных коэффициентов окружения, используется для предсказания спектральных коэффициентов для спектральных коэффициентов окружения, когда фазовый сдвиг в последнем кадре (m-1), предшествующем заменяющему кадру (m), выше предварительно определенного порогового значения.
19. Способ по п.2, в котором
спектральный коэффициент для пика (502) и его окружения в спектре заменяющего кадра (m) предсказывают на основании уточненной амплитуды комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), и предсказанной фазы комплексного спектра заменяющего кадра (m), и
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), и удвоенного фазового сдвига между последним кадром (m-1) и предпоследним кадром (m-2), предшествующим заменяющему кадру (m).
20. Способ по п.19, в котором уточненную амплитуду комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), определяют на основании коэффициента действительного спектра для действительного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), фазы комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), и фазового сдвига между последним кадром (m-1) и предпоследним кадром (m-2), предшествующим заменяющему кадру (m).
21. Способ по п.19, в котором уточненная амплитуда комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), ограничена амплитудой комплексного спектра предпоследнего кадра (m-2), предшествующего заменяющему кадру (m).
22. Способ по п.2, в котором
спектральный коэффициент для пика (502) и его окружения в спектре заменяющего кадра (m) предсказывают на основании амплитуды комплексного спектра промежуточного кадра между последним кадром (m-1) и предпоследним кадром (m-2), предшествующим заменяющему кадру (m), и предсказанной фазы комплексного спектра заменяющего кадра (m).
23. Способ по п.22, в котором
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы комплексного спектра промежуточного кадра, предшествующего заменяющему кадру (m), и фазового сдвига между промежуточными кадрами, предшествующими заменяющему кадру (m), или
фазу комплексного спектра заменяющего кадра (m) предсказывают на основании фазы комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), и уточненного фазового сдвига между промежуточными кадрами, предшествующими заменяющему кадру (m), причем уточненный фазовый сдвиг определяют на основании фазы комплексного спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), и фазы комплексного спектра промежуточного кадра, предшествующего заменяющему кадру (m).
24. Способ по п.1, в котором детектирование тонального компонента спектра аудиосигнала содержит:
поиск (S400) пиков в спектре последнего кадра (m-1), предшествующего заменяющему кадру (m), на основании одного или более предварительно определенных пороговых значений;
адаптацию (S402) одного или более пороговых значений; и
поиск (S404) пиков в спектре предпоследнего кадра (m-2), предшествующего заменяющему кадру (m), на основании одного или более адаптированных пороговых значений.
25. Способ по п.24, в котором адаптация одного или более пороговых значений содержит установку одного или более пороговых значений для поиска пика в предпоследнем кадре (m-2), предшествующем заменяющему кадру (m), в области вблизи пика, найденного в последнем кадре (m-1), предшествующем заменяющему кадру (m), на основании спектра и огибающей спектра последнего кадра (m-1), предшествующего заменяющему кадру (m), или на основании основной частоты.
26. Способ по п.25, в котором основная частота предназначена для сигнала, включающего в себя последний кадр (m-1), предшествующий заменяющему кадру (m), и упреждения последнего кадра (m-1), предшествующего заменяющему кадру (m).
27. Способ по п.26, в котором упреждение последнего кадра (m-1), предшествующего заменяющему кадру (m), вычисляют на стороне кодера, используя упреждение.
28. Способ по п.24, в котором адаптация (S402) одного или более пороговых значений содержит установку одного или более пороговых значений для поиска пика в предпоследнем кадре (m-2), предшествующем заменяющему кадру (m), в области не вблизи пика, найденного в последнем кадре (m-1), предшествующем заменяющему кадру (m), в предварительно определенное пороговое значение.
29. Способ по п.1, содержащий:
определение (S204) для заменяющего кадра (m), применять ли маскирование во временной области или маскирование в частотной области, с использованием предсказания спектральных коэффициентов для тональных компонентов аудиосигнала.
30. Способ по п.29, в котором маскирование в частотной области применяют в случае, если последний кадр (m-1), предшествующий заменяющему кадру (m), и предпоследний кадр (m-2), предшествующий заменяющему кадру (m), имеют постоянный основной тон, или анализ одного или нескольких кадров, предшествующих заменяющему кадру (m), указывает, что ряд тональных компонентов в сигнале превышает предварительно определенное пороговое значение.
31. Способ по п.1, в котором кадры аудиосигнала кодированы с использованием MDCT.
32. Способ по п.1, в котором заменяющий кадр (m) содержит кадр, который не может быть обработан в приемнике аудио, например, из-за ошибки в принятых данных, или кадр, который был потерян в ходе передачи на приемник аудио, или кадр, не принятый вовремя в приемнике аудио.
33. Способ по п.1, в котором непредсказываемый спектральный коэффициент формируют с использованием способа генерации шума, например, скремблирования со знаком, или с использованием предварительно определенного спектрального коэффициента из памяти, например, таблицы поиска.
34. Компьютерно-читаемый носитель, сохраняющий инструкции, которые, при исполнении на компьютере, выполняют способ по одному из п.п.1-33.
35. Устройство для получения спектральных коэффициентов для заменяющего кадра (m) аудиосигнала, причем устройство содержит:
детектор (134), сконфигурированный для детектирования тонального компонента спектра аудиосигнала на основании пика, который присутствует в спектрах кадров, предшествующих заменяющему кадру (m); и
блок (138) предсказания, сконфигурированный, чтобы предсказывать для тонального компонента спектра спектральные коэффициенты для пика (502) и его окружения в спектре заменяющего кадра (m);
при этом для нетонального компонента спектра используется непредсказываемый спектральный коэффициент для заменяющего кадра (m) или соответствующий спектральный коэффициент кадра, предшествующего заменяющему кадру (m).
36. Устройство для получения спектральных коэффициентов для заменяющего кадра (m) аудиосигнала, причем устройство сконфигурировано функционировать согласно способу по одному из пп.1-33.
37. Декодер аудио, содержащий устройство по п.35 или 36.
38. Приемник аудио, содержащий декодер аудио по п.37.
39. Система передачи аудиосигналов, содержащая:
кодер (100), сконфигурированный, чтобы генерировать кодированный аудиосигнал; и
декодер (120) по п.37, сконфигурированный, чтобы принимать кодированный аудиосигнал и декодировать кодированный аудиосигнал.
RU2016101336A 2013-06-21 2014-06-20 Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов RU2632585C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173161 2013-06-21
EP13173161.4 2013-06-21
EP14167072.9 2014-05-05
EP14167072 2014-05-05
PCT/EP2014/063058 WO2014202770A1 (en) 2013-06-21 2014-06-20 Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals

Publications (2)

Publication Number Publication Date
RU2016101336A RU2016101336A (ru) 2017-07-26
RU2632585C2 true RU2632585C2 (ru) 2017-10-06

Family

ID=50980298

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016101336A RU2632585C2 (ru) 2013-06-21 2014-06-20 Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов

Country Status (18)

Country Link
US (3) US9916834B2 (ru)
EP (1) EP3011556B1 (ru)
JP (1) JP6248190B2 (ru)
KR (1) KR101757338B1 (ru)
CN (2) CN105408956B (ru)
AU (1) AU2014283180B2 (ru)
BR (1) BR112015032013B1 (ru)
CA (1) CA2915437C (ru)
ES (1) ES2633968T3 (ru)
HK (1) HK1224075A1 (ru)
MX (1) MX352099B (ru)
MY (1) MY169132A (ru)
PL (1) PL3011556T3 (ru)
PT (1) PT3011556T (ru)
RU (1) RU2632585C2 (ru)
SG (1) SG11201510513WA (ru)
TW (1) TWI562135B (ru)
WO (1) WO2014202770A1 (ru)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014202770A1 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN107004417B (zh) 2014-12-09 2021-05-07 杜比国际公司 Mdct域错误掩盖
TWI576834B (zh) * 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10504525B2 (en) 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
CN106101925B (zh) * 2016-06-27 2020-02-21 联想(北京)有限公司 一种控制方法及电子设备
EP3510595A4 (en) * 2016-09-09 2020-01-22 DTS, Inc. SYSTEM AND METHOD FOR LONG-TERM PREDICTION AT AUDIOCODECS
RU2652434C2 (ru) * 2016-10-03 2018-04-26 Виктор Петрович Шилов Способ приемопередачи дискретных информационных сигналов
CN106533394B (zh) * 2016-11-11 2019-01-04 江西师范大学 一种基于自适应滤波器幅频响应的高精度频率估计方法
EP3454336B1 (en) * 2017-09-12 2020-11-04 Dolby Laboratories Licensing Corporation Packet loss concealment for critically-sampled filter bank-based codecs using multi-sinusoidal detection
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN108055087B (zh) * 2017-12-30 2024-04-02 天津大学 利用长肢领航鲸叫声谐波数量进行编码的通信方法及装置
US10186247B1 (en) 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
JP7178506B2 (ja) 2019-02-21 2022-11-25 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 位相ecu f0補間スプリットのための方法および関係するコントローラ
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113111618B (zh) * 2021-03-09 2022-10-18 电子科技大学 一种基于改进的经验小波变换的模拟电路故障诊断方法
CN113655529B (zh) * 2021-08-17 2022-11-29 南京航空航天大学 一种针对高采样率的被动磁信号优化提取和检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138101A (en) * 1997-01-22 2000-10-24 Sharp Kabushiki Kaisha Method of encoding digital data
WO2002059875A2 (en) * 2001-01-24 2002-08-01 Nokia Corporation System and method for error concealment in digital audio transmission
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
RU2419891C2 (ru) * 2005-12-28 2011-05-27 Войсэйдж Корпорейшн Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
US20120109659A1 (en) * 2009-07-16 2012-05-03 Zte Corporation Compensator and Compensation Method for Audio Frame Loss in Modified Discrete Cosine Transform Domain

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2130952A5 (ru) * 1971-03-26 1972-11-10 Thomson Csf
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
FR2692091B1 (fr) 1992-06-03 1995-04-14 France Telecom Procédé et dispositif de dissimulation d'erreurs de transmission de signaux audio-numériques codés par transformée fréquentielle.
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
AU4190200A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7356748B2 (en) 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP4744438B2 (ja) * 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
EP1775717B1 (en) * 2004-07-20 2013-09-11 Panasonic Corporation Speech decoding apparatus and compensation frame generation method
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
EP2054879B1 (en) * 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
US8935158B2 (en) * 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
EP3246918B1 (en) * 2008-07-11 2023-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method for decoding an audio signal and computer program
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
CN101521012B (zh) * 2009-04-08 2011-12-28 武汉大学 Mdct域信号能量与相位补偿方法及其装置
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
TWI430263B (zh) * 2009-10-20 2014-03-11 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
CN103493130B (zh) * 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
JP6088644B2 (ja) * 2012-06-08 2017-03-01 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
KR20150056770A (ko) * 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
EP2954516A1 (en) * 2013-02-05 2015-12-16 Telefonaktiebolaget LM Ericsson (PUBL) Enhanced audio frame loss concealment
HUE030163T2 (en) * 2013-02-13 2017-04-28 ERICSSON TELEFON AB L M (publ) Hide frame failure
WO2014202770A1 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138101A (en) * 1997-01-22 2000-10-24 Sharp Kabushiki Kaisha Method of encoding digital data
WO2002059875A2 (en) * 2001-01-24 2002-08-01 Nokia Corporation System and method for error concealment in digital audio transmission
US20070094009A1 (en) * 2005-10-26 2007-04-26 Ryu Sang-Uk Encoder-assisted frame loss concealment techniques for audio coding
RU2419891C2 (ru) * 2005-12-28 2011-05-27 Войсэйдж Корпорейшн Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
US20120109659A1 (en) * 2009-07-16 2012-05-03 Zte Corporation Compensator and Compensation Method for Audio Frame Loss in Modified Discrete Cosine Transform Domain

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S.-U. Ryu and R. Kenneth, An MDCT domain frame-loss concealment technique for MPEG Advanced Audio Coding, Department od Electrical and Computer Engineering, University of California, 2007. *

Also Published As

Publication number Publication date
BR112015032013B1 (pt) 2021-02-23
US9916834B2 (en) 2018-03-13
EP3011556A1 (en) 2016-04-27
KR20160024918A (ko) 2016-03-07
MX2015017369A (es) 2016-04-06
CA2915437C (en) 2017-11-28
JP6248190B2 (ja) 2017-12-13
CN111627451B (zh) 2023-11-03
CN105408956A (zh) 2016-03-16
US11282529B2 (en) 2022-03-22
US10475455B2 (en) 2019-11-12
ES2633968T3 (es) 2017-09-26
MX352099B (es) 2017-11-08
JP2016526703A (ja) 2016-09-05
AU2014283180B2 (en) 2017-01-05
EP3011556B1 (en) 2017-05-03
PL3011556T3 (pl) 2017-10-31
SG11201510513WA (en) 2016-01-28
MY169132A (en) 2019-02-18
BR112015032013A2 (pt) 2017-07-25
RU2016101336A (ru) 2017-07-26
WO2014202770A1 (en) 2014-12-24
US20180108361A1 (en) 2018-04-19
AU2014283180A1 (en) 2016-02-11
HK1224075A1 (zh) 2017-08-11
US20160104490A1 (en) 2016-04-14
CN111627451A (zh) 2020-09-04
CN105408956B (zh) 2020-03-27
TW201506908A (zh) 2015-02-16
CA2915437A1 (en) 2014-12-24
TWI562135B (en) 2016-12-11
KR101757338B1 (ko) 2017-07-26
PT3011556T (pt) 2017-07-13
US20200020343A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
RU2632585C2 (ru) Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов
US10847166B2 (en) Coding of spectral coefficients of a spectrum of an audio signal
US9153245B2 (en) Pitch detection method and apparatus
JP6151411B2 (ja) 音声符号化装置および方法、並びに、音声復号装置および方法
Lecomte et al. Packet-loss concealment technology advances in EVS
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
EP2551848A2 (en) Method and apparatus for processing an audio signal
KR102424897B1 (ko) 상이한 손실 은닉 도구들의 세트를 지원하는 오디오 디코더
JP2010164809A (ja) デコード装置および音声符号化方式推定方法