RU2756434C2 - Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты - Google Patents

Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты Download PDF

Info

Publication number
RU2756434C2
RU2756434C2 RU2017144519A RU2017144519A RU2756434C2 RU 2756434 C2 RU2756434 C2 RU 2756434C2 RU 2017144519 A RU2017144519 A RU 2017144519A RU 2017144519 A RU2017144519 A RU 2017144519A RU 2756434 C2 RU2756434 C2 RU 2756434C2
Authority
RU
Russia
Prior art keywords
frequency
filter
frequency range
smoothing
signal
Prior art date
Application number
RU2017144519A
Other languages
English (en)
Other versions
RU2017144519A (ru
RU2017144519A3 (ru
Inventor
Магдалена КАНЕВСКА
Стефан РАГО
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=49753286&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2756434(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2017144519A publication Critical patent/RU2017144519A/ru
Publication of RU2017144519A3 publication Critical patent/RU2017144519A3/ru
Application granted granted Critical
Publication of RU2756434C2 publication Critical patent/RU2756434C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру. Технический результат достигается за счет вычисления частотной характеристики R фильтра линейного предсказания диапазона частот, сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит способ сглаживания, являющийся адаптивным во времени. 2 н. и 6 з.п. ф-лы, 10 ил.

Description

Настоящее изобретение относится к области кодирования/декодирования и обработки сигналов звуковой частоты (например, речи, музыки или других подобных сигналов) для их передачи или их хранения.
Более конкретно, изобретение относится к способу и устройству для определения оптимизированного масштабного коэффициента, который может использоваться для регулировки уровня сигнала возбуждения или, эквивалентным образом, фильтра в качестве компонента расширения диапазона частот в декодере или улучшения сигналов звуковой частоты посредством процессора.
Существуют многочисленные методы сжатия (с потерей) сигнала звуковой частоты, такого как речь или музыка.
Традиционные способы кодирования для разговорных приложений, как правило, делятся на кодирование формы сигнала (РСМ «кодово-импульсная модуляция», ADCPM «адаптивная дифференциальная кодово-импульсная модуляция», кодирование с преобразованием и т.д.), параметрическое кодирование (LPC «кодирование с линейным предсказанием», синусоидальное кодирование и т.д.) и параметрическое гибридное кодирование с квантованием параметров посредством «анализа через синтез», самым известным примером которого является кодирование CELP («линейное предсказание с кодовым возбуждением»).
Для неразговорных приложений в уровень техники для кодирования (монофонического) звукового сигнала входит перцептуальное кодирование с преобразованием или в поддиапазонах с параметрическим кодированием высоких частот посредством репликации диапазона.
Обзор способов кодирования обычной речи и звука можно найти в работах W.B. Kleijn and K.K. Paliwal (eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008.
Внимание в данных работах сосредоточено, в частности, на 3GPP стандартизированном AMR-WB («адаптивном многоскоростном широкополосном») кодеке (кодере и декодере), который работает на входной/выходной частоте 16 кГц, и в котором сигнал разделяется на два поддиапазона, нижний диапазон (0-6,4 кГц), который дискретизируется с частотой 12,8 кГц и кодируется посредством CELP модели, и верхний диапазон (6,4-7 кГц), который параметрически восстанавливается посредством «расширения диапазона» (или BWE «расширения полосы пропускания») с или без дополнительной информации в зависимости от режима текущего кадра. Можно отметить, что ограничение кодированного диапазона кодека AMR-WB на частоте 7 кГц, по существу, связано с тем, что частотная характеристика при передаче широкополосных терминалов была аппроксимирована в момент стандартизации (ETSI/3GPP, в дальнейшем ITU-T) в соответствии с частотной маской, определенной в стандарте ITU-T P.341 и, более конкретно посредством так называемого фильтра «P341», определенного в стандарте ITU-T G.191, который отсекает частоты выше 7 кГц (данный фильтр соблюдает маску, определенную в P.341). Тем не менее, в теории хорошо известно, что сигнал, подвергнутый дискретизации с частотой 16 кГц, может иметь определенный звуковой диапазон от 0 до 8000 Гц; поэтому AMR-WB-кодек вводит ограничение верхнего диапазона по сравнению с теоретической полосой пропускания 8 кГц.
3GPP AMR-WB речевой кодек был стандартизирован в 2001 году, главным образом, для режима с коммутацией каналов (CS) телефонных приложений на GSM (2G) и UMTS (3G). Этот же кодек также был стандартизирован в 2003 году в стандарте ITU-T в виде рекомендации G.722.2 «Широкополосное кодирование речи при приблизительно 16 кбит/с с применением адаптивного многоскоростного широкополосного кодирования (AMR-WB)».
Он имеет девять скоростей цифрового потока, называемых режимами, от 6,6 до 23,85 кбит/с, и содержит механизмы непрерывной передачи (DTX «прерывистой передачи») с определением присутствия голосового сигнала (VAD) и генерацией комфортного шума (CNG) из кадров описания периода молчания (SID «дескриптор информации о паузе») и механизмы коррекции потерянных кадров (FEC «маскирование стирания кадров», иногда называемое PLC «маскирование потери пакетов»).
Подробная информация о AMR-WB кодировании и алгоритме декодирования не повторяется в данной заявке; подробное описание этого кодека можно найти в спецификациях 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) и в ITU-T-G.722.2 (и соответствующих дополнениях и приложениях), и в статье B. Bessette и другие, озаглавленной «The adaptive multirate wideband speech codec (AMR-WB)ʺ, IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636, и исходном коде связанных стандартов 3GPP и ITU-T.
Принцип расширения диапазона в кодеке AMR-WB довольно слабо развит. Действительно, верхний диапазон (6,4-7 кГц) генерируется посредством формирования белого шума во времени (применяемого при формировании коэффициентов усиления на подкадр) и частотной огибающей (посредством применения синтезирующего фильтра линейного предсказания или LPC «кодирование с линейным предсказанием»). Данный метод расширения диапазона показан на фиг. 1.
Белый шум
Figure 00000001
,
Figure 00000002
генерируется на частоте 16 кГц для каждого подкадра длительностью 5 мс посредством линейного конгруэнтного генератора (блок 100). Этот шум
Figure 00000001
формируется во времени посредством применения коэффициентов усиления для каждого подкадра; эта операция разбивается на два этапа обработки (блоки 102, 106 или 109):
Вычисляют (блок 101) первый коэффициент, чтобы установить белый шум
Figure 00000001
(блок 102) на том же уровне, что и возбуждение
Figure 00000003
,
Figure 00000004
, декодированное на частоте 12,8 кГц в нижнем диапазоне:
Figure 00000005
Можно отметить, что нормализация энергий выполняется путем сравнения блоков разного размера (64 для
Figure 00000003
и 80 для
Figure 00000001
) без компенсации отличий в частотах дискретизации (12,8 или 16 кГц).
Затем получают возбуждение в верхнем диапазоне (блок 106 или 109) в виде:
Figure 00000006
где коэффициент усиления
Figure 00000007
получают по-разному в зависимости от скорости цифрового потока. Если скорость цифрового потока текущего кадра <23,85 кбит/с, коэффициент усиления
Figure 00000007
оценивают «вслепую» (то есть без дополнительной информации); в этом случае блок 103 фильтрует сигнал, декодированный в нижнем диапазоне, посредством фильтра высоких частот с частотой среза 400 Гц для получения сигнала
Figure 00000008
,
Figure 00000004
- данный фильтр высоких частот устраняет влияние очень низких частот, которые могут исказить оценку, выполненную в блоке 104 - затем «наклон» (индикатор крутизны спектра), обозначенный
Figure 00000009
сигнала
Figure 00000008
вычисляют с помощью нормированной автокорреляции (блок 104 ):
Figure 00000010
и, наконец,
Figure 00000007
вычисляют в виде:
Figure 00000011
где
Figure 00000012
- коэффициент усиления, применяемый в активных речевых (SP) кадрах,
Figure 00000013
- коэффициент усиления, применяемый в неактивных речевых кадрах, относящихся к фоновому (BG) шуму, и
Figure 00000014
- весовая функция, которая зависит от определения присутствия голосового сигнала (VAD). Понятно, что оценка наклона (
Figure 00000009
) позволяет адаптировать уровень верхнего диапазона в зависимости от спектрального характера сигнала; эта оценка особенно важна, когда крутизна спектра CELP декодированного сигнала такой, что средняя энергия уменьшается, когда частота увеличивается (в случае вокализованного сигнала, где
Figure 00000009
близка к 1, поэтому
Figure 00000012
соответственно снижается). Следует также отметить, что коэффициент
Figure 00000015
в AMR-WB декодировании ограничивается для приема значений в диапазоне [0,1; 1,0]. Более того, для сигналов, энергия которых увеличивается при увеличении частоты (
Figure 00000009
близко к -1,
Figure 00000016
близко к 2), коэффициент усиления
Figure 00000015
обычно занижается.
При скорости 23,85 кбит/с корректирующее информационное сообщение передается на AMR-WB кодер и декодируется (блоки 107, 108) с целью уточнения коэффициента усиления, оцененного для каждого подкадра (4 бита каждые 5 мс или 0,8 кбит/с). Затем искусственное возбуждение
Figure 00000017
фильтруется (блок 111) посредством LPC синтезирующего фильтра (блок 111) передаточной функции
Figure 00000018
и работает на частоте дискретизации 16 кГц. Структура данного фильтра зависит от скорости передачи текущего кадра:
При скорости 6,6 кбит/с фильтр
Figure 00000019
получают путем взвешивания посредством коэффициента
Figure 00000020
= 0,9 фильтра LPC 20-го порядка
Figure 00000021
, который «экстраполирует» фильтр LPC 16-го порядка
Figure 00000022
, декодированный в нижнем диапазоне (12,8 кГц) - подробности экстраполяции параметров области ISF (спектральной частоты иммитанса) описываются в стандарте G.722.2 в разделе 6.3.2.1; в этом случае,
Figure 00000023
• при скорости цифрового потока > 6.6 кбит/с фильтр
Figure 00000019
имеет 16-й порядок и фактически соответствует:
Figure 00000024
где
Figure 00000020
= 0,6. Следует отметить, что в этом случае фильтр
Figure 00000025
используется на частоте 16 кГц, что приводит к расширению (посредством пропорционального преобразования) частотной характеристики этого фильтра от [0;6,4 кГц] до [0;8 кГц].
В заключение, результат
Figure 00000026
обрабатывается посредством полосового фильтра (блок 112) типа FIR («конечной импульсной характеристики»), чтобы сохранить только диапазон 6-7 кГц; при скорости 23,85 кбит/с низкочастотный фильтр также типа FIR (блок 113) добавляется к обработке для дополнительного подавления частот выше 7 кГц. В заключение, высокочастотный (HF) синтез добавляется (блок 130) к низкочастотному (LF) синтезу, полученному с помощью блоков 120-122 и подвергнутом повторной дискретизации с частотой 16 кГц (блок 123). Таким образом, даже если верхний диапазон расширяется в теории от 6,4 до 7 кГц в кодеке AMR-WB, HF синтез скорее содержится в полосе 6-7 кГц перед суммированием с LF синтезом.
В методе расширения диапазона кодека AMR-WB может быть выявлен ряд недостатков, в частности:
оценка коэффициентов усиления для каждого подкадра (блок 101, 103-105) не является оптимальной. Отчасти она основывается на выравнивании «абсолютной» энергии в расчете на один подкадр (блок 101) между сигналами на различных частотах: искусственным возбуждением на частоте 16 кГц (белый шум) и сигналом на частоте 12,8 кГц (декодированное возбуждение ACELP). Можно отметить, в частности, что этот подход неявно вызывает подавление возбуждения верхнего диапазона (в соотношении 12,8/16=0,8); фактически, это также будет отмечено, что восстановление предыскаженного сигнала не выполняется в верхнем диапазоне в кодеке AMR-WB, который неявно вызывает усиление относительно близкое к 0,6 (что соответствует значению частотной характеристики
Figure 00000027
при частоте 6400 Гц). В действительности, коэффициенты 1/0,8 и 0,6 компенсируются приблизительно.
Что касается речи, 3GPP характеристические тесты кодека AMR-WB, задокументированные в 3GPP отчете TR 26.976, показали, что режим при скорости 23,85 кбит/с имеет менее хорошее качество, чем при скорости 23,05 кбит/с, его качество в действительности подобно режиму при скорости 15,85 кбит/с. Это показывает, в частности, что уровень искусственного HF сигнала необходимо контролировать очень аккуратно, так как качество ухудшается при скорости 23,85 кбит/с, при этом считается, что 4 бита на кадр наилучшим образом обеспечивают возможность аппроксимации энергии исходных высоких частот.
Фильтр низких частот на частоте 7 кГц (блок 113) вводит сдвиг почти 1 мс между нижним и верхним диапазонами, которые могут потенциально ухудшить качество определенных сигналов посредством незначительной десинхронизации двух диапазонов при скорости 23,85 кбит/с - данная десинхронизация может также приводить к проблемам при переключении скорости цифрового потока со скорости 23,85 кбит/с на другие режимы.
Пример расширения диапазона с помощью временного подхода описывается в 3GPP стандарте TS 26.290, описывающем кодек AMR-WB+ (стандартизованный в 2005 году). Данный пример показан на структурной схеме фиг. 2a (общая структурная схема) и 2b (предсказание коэффициента усиления по реакции коррекции уровня), которые соответствуют соответственно фиг. 16 и 10 3GPP спецификации TS 26.290.
В кодеке AMR-WB+ (монофонический) входной сигнал, подвергнутый дискретизации на частоте Fs (в Гц), делится на два отдельных частотных диапазона, в которых два фильтра LPC вычисляются и кодируются по отдельности:
один фильтр LPC, обозначенный
Figure 00000028
, в нижем диапазоне (0-Fs/4) -его квантованная версия обозначается
Figure 00000029
другой фильтр LPC, обозначенный
Figure 00000030
, в спектрально смешанном верхнем диапазоне (Fs/4-Fs/2) -его квантованная версия обозначается
Figure 00000031
Расширение диапазона выполняется в кодеке AMR-WB+, как подробно описано в разделах 5.4 (HF кодирование) и 6.2 (HF декодирование) 3GPP спецификации TS 26.290. Его принцип кратко изложен здесь: расширение заключается в использовании возбуждения, декодированного на низких частотах (возбужд. LFC) и в формировании данного возбуждения посредством временного коэффициента усиления в расчете на подкадр (блок 205) и синтезирующей фильтрации LPC (блок 207); кроме того реализуются операции обработки для увеличения (пост-обработки) возбуждения (блок 206) и сглаживания энергии восстановленного сигнала HF (блок 208), как показано на фиг. 2a.
Важно отметить, что данное расширение в AMR-WB+ требует передачи дополнительной информации: коэффициентов фильтра
Figure 00000031
в 204 и временного формирующего усиления на подкадр (блок 201). Один конкретный признак алгоритма расширения диапазона в AMR-WB+ состоит в том, что коэффициент усиления на каждый подкадр определяется посредством прогнозирующего подхода; другими словами, коэффициенты усиления не кодируются непосредственно, а кодируются коррекции усиления, которые относятся к оценке коэффициента усиления, обозначенного
Figure 00000032
. Эта оценка,
Figure 00000032
, фактически соответствует коэффициенту выравнивания уровня между фильтрами
Figure 00000029
и
Figure 00000031
на частоте разделения между нижним диапазоном и верхним диапазоном (Fs/4). Вычисление коэффициента
Figure 00000032
(блок 203) подробно описано на фиг.10 3GPP спецификации TS 26.290, воспроизведенной в данной заявке на фиг. 2b. Эта фигура не будет дополнительно подробно описываться в данной заявке. Просто следует отметить, что блоки 210-213 используются для вычисления энергии импульсной характеристики
Figure 00000033
, в то же время напоминая, что фильтр
Figure 00000031
моделирует спектрально смешанный верхний диапазон (из-за спектральных свойств разделения нижнего и верхнего диапазонов банка фильтров). Поскольку фильтры интерполируются по подкадрам, коэффициент усиления
Figure 00000032
вычисляется только один раз за кадр, и он интерполируется по подкадрам.
Метод кодирования коэффициента усиления расширения диапазона в AMR-WB+, и, в частности, компенсация уровней фильтров LPC при их соединении является подходящим способом в контексте расширения диапазона посредством моделей LPC в нижнем и верхнем диапазоне, и можно отметить, что такая компенсация уровня между фильтрами LPC отсутствует в расширении диапазона кодека AMR-WB. Тем не менее, на практике можно проверить, что непосредственное выравнивание уровня между двумя фильтрами LPC на частоте разделения не является оптимальным способом и может вызвать завышенную оценку энергии в верхнем диапазоне и в некоторых случаях слышимые искажения; следует помнить, что фильтр LPC представляет собой спектральную огибающую, и принцип выравнивания уровня между двумя фильтрами LPC для данной частоты сводится к регулировке относительного уровня двух огибающих LPC. Тогда, такое выравнивание, выполняемое при частоте, погрешность которой не превышает эталонно допустимую, не обеспечивает полную непрерывность и общую согласованность энергии (по частоте) в области точки выравнивания, когда частотная огибающая сигнала значительно колеблется в данной области. Математический способ установления проблемы состоит в обнаружении того, что может обеспечиваться непрерывность между двумя кривыми, что приводит к их пересечению в одной и той же точке, но ничто не гарантирует того, что локальные свойства (последовательные производные) совпадают так, чтобы обеспечить более глобальную совместимость. Риск в обеспечении места непрерывности между огибающими LPC нижнего и верхнего диапазонов включает установку огибающей LPC в верхнем диапазоне на относительный уровень, который является слишком сильным или слишком слабым, причем случай слишком сильного уровня является более опасным, потому что он приводит к более раздражающим искажениям.
Кроме того, компенсация усиления в AMR-WB+ является первичным предсказанием коэффициента усиления, известного для кодера и декодера, и который предназначен для уменьшения скорости цифрового потока, необходимой для передачи информации усиления, масштабирующей сигнал возбуждения в верхнем диапазоне. Тогда, в контексте функционально совместимого улучшения кодирования/декодирования AMR-WB, нельзя изменить существующее кодирование коэффициентов усиления в отношении подкадров (0,8 кбит/с) расширения диапазона в режиме AMR-WB при скорости 23,85 кбит/с. Кроме того, для скоростей цифрового потока строго меньше 23,85 кбит/с, компенсация уровней фильтров LPC в нижнем и верхнем диапазонах может применяться в расширении диапазона декодирования, совместимого с AMR-WB, но опыт показывает, что данный единственный метод, получаемый из AMR-WB+ кодирования, применяемого без оптимизации, может создавать проблемы завышения оценки энергии верхнего диапазона (> 6 кГц).
Следовательно, существует потребность в улучшении компенсации коэффициентов усиления между фильтрами линейного предсказания различных диапазонов частот для расширения диапазона частот в кодеке типа AMR-WB или функционально совместимой версии этого кодека без какой-либо завышенной оценки энергии в диапазоне частот и без необходимости дополнительной информации из кодера.
Настоящее изобретение улучшает ситуацию.
В связи с этим, целью изобретения является способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Способ определения включает следующие этапы:
- определение фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- вычисление оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Таким образом, использование дополнительного фильтра более низкого порядка, чем фильтр первого диапазона частот, для выравнивания позволяет избежать завышения оценки энергии на высоких частотах, которые могут возникнуть в результате локальных колебаний огибающей, и которые могут нарушить выравнивание фильтров предсказания.
Таким образом, улучшается выравнивание коэффициентов усиления между фильтрами линейного предсказания первого и второго диапазонов частот.
В преимущественном применении надлежащим образом полученного оптимизированного масштабирующего коэффициента способ расширения диапазона включает этап применения оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.
В соответствующем варианте осуществления применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.
Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяют в один этап фильтрации для уменьшения сложности обработки.
В конкретном варианте осуществления коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.
Поэтому данный дополнительный фильтр более низкого порядка получают простым способом.
Кроме того, для получения устойчивого фильтра коэффициенты дополнительного фильтра изменяются в зависимости от критерия устойчивости дополнительного фильтра.
В конкретном варианте осуществления вычисление оптимизированного масштабного коэффициента включает следующие этапы:
- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;
- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;
- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.
Таким образом, оптимизированный масштабный коэффициент вычисляется таким образом, чтобы избежать раздражающих искажений, которые могут возникнуть в случае, если частотная характеристика фильтра более высокого порядка первого диапазона вблизи от общей частоты демонстрирует пик сигнала или точку минимума.
В конкретном варианте осуществления способ дополнительно включает следующие этапы, реализуемые на предопределенной скорости цифрового потока декодирования:
- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисленного в расчете на подкадр в зависимости от отношения энергии декодированного сигнала возбуждения и расширенного сигнала возбуждения;
- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;
- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.
Таким образом, дополнительная информация может использоваться для повышения качества расширенного сигнала для предопределенного режима работы.
Целью настоящего изобретения также является устройство для определения оптимизированного масштабного коэффициента, применяемого к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, причем устройство расширения диапазона содержит модуль для декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, модуль для генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль для фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Устройство определения содержит:
- модуль определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- модуль вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Целью настоящего изобретения является декодер, содержащий описанное устройство.
Целью настоящего изобретения является компьютерная программа, содержащая команды программного кода для реализации этапов описанного способа определения оптимизированного масштабного коэффициента при выполнении этих команд процессором.
Наконец, настоящее изобретение относится к носителю данных, который может считываться процессором, встроенным или нет в устройство определения оптимизированного масштабного коэффициента, по возможности съемному, хранящему компьютерную программу, реализующую способ определения оптимизированного масштабного коэффициента, как описано выше.
Другие признаки и преимущества настоящего изобретения станут более очевидными из нижеследующего описания, приведенного только в качестве неограничивающего примера и со ссылкой на прилагаемые графические материалы, на которых:
- на фиг. 1 изображена часть декодера типа AMR-WB, реализующего этапы расширения диапазона частот согласно уровню техники и как описано ранее;
- на фиг. 2a и 2b представлено кодирование верхнего диапазона в кодеке AMR-WB+ в соответствии с уровнем техники и как описано ранее;
- на фиг. 3 изображен декодер, который может взаимодействовать с кодированием AMR-WB, включающий устройство расширения диапазона, применяемое в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 4 изображено устройство определения масштабного коэффициента, оптимизированного посредством подкадра в зависимости от скорости цифрового потока, в соответствии с одним вариантом осуществления настоящего изобретения; и
- на фиг. 5а и 5b изображены частотные характеристики фильтров, применяемых для вычисления оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 6 изображены в форме блок-схемы основные этапы способа определения оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 7 изображен один вариант осуществления в частотной области устройства определения оптимизированного масштабного коэффициента в рамках расширения диапазона;
- на фиг. 8 изображена аппаратная реализация устройства определения оптимизированного масштабного коэффициента для расширения диапазона в соответствии с настоящим изобретением.
На фиг. 3 изображен примерный декодер, совместимый со стандартом AMR-WB/G.722.2, в котором присутствует расширение диапазона, включающее определение оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления способа согласно настоящему изобретению, реализованный посредством устройства расширения диапазона, показанного в виде блока 309.
В отличие от декодирования AMR-WB, которое работает с выходной частотой дискретизации 16 кГц, в данном случае рассматривается декодер, который может работать с выходным сигналом (синтеза) на частоте fs=8, 16, 32 или 48 кГц. Следует отметить, что в данном случае предполагается, что кодирование выполнено в соответствии с алгоритмом AMR-WB с внутренней частотой 12,8 кГц для кодирования CELP в нижнем диапазоне и кодировании посредством коэффициента усиления при скорости 23,85 кбит/с на подкадр на частоте 16 кГц; несмотря на то, что изобретение описывается здесь на уровне декодирования, при этом предполагается, что кодирование может также работать с входным сигналом на частоте fs=8, 16, 32 или 48 кГц, и подходящие операции передискретизации вне контекста настоящего изобретения применяются в кодировании в зависимости от величины fs. Следует отметить, что, когда fs=8 кГц, в случае декодирования, совместимого с AMR-WB, нет необходимости расширять нижний диапазон 0-6,4 кГц, потому что диапазон звуковых частот, восстановленный на частоте fs, ограничивается диапазоном 0-4000 Гц.
На фиг. 3 декодирование CELP (LF для низких частот) по-прежнему работает на внутренней частоте 12,8 кГц, как в AMR-WB, и расширение диапазона (HF для высоких частот), применяемое для изобретения, работает на частоте 16 кГц, и LF и HF синтезы объединяются (блок 312) на частоте fs после соответствующей передискретизации (блок 306 и внутренней обработки в блоке 311). В альтернативных вариантах осуществления объедение нижнего и верхнего диапазонов может выполняться на частоте 16 кГц после передискретизации нижнего диапазона от 12,8 до 16 кГц, перед передискретизацией объединенного сигнала на частоте fs.
Декодирование в соответствии с фиг. 3 зависит от режима AMR-WB (или скорости цифрового потока), связанного с текущим принятым кадром. В качестве индикатора, и без воздействия на блок 309, декодирование части CELP в нижнем диапазоне включает следующие этапы:
• демультиплексирование кодированных параметров (блок 300) в случае правильно принятого кадра (bfi=0, где bfi - «признак поврежденного кадра» со значением 0 для принятого кадра и 1 для потерянного кадра);
декодирование параметров ISF с интерполяцией и преобразованием в коэффициенты LPC (блок 301), как описано в пункте 6.1 стандарта G.722.2;
декодирование возбуждения CELP (блок 302) с адаптивной и фиксированной частью для восстановления возбуждения (exc или
Figure 00000034
) в каждом подкадре длиной 64 на частоте 12,8 кГц:
Figure 00000035
,
Figure 00000036
в соответствии с обозначениями пункта 7.1.2.1 Рекомендации ITU-T G.718 декодера, функционально совместимого с AMR-WB кодером/декодером, в отношении декодирования CELP, где
Figure 00000037
и
Figure 00000038
- соответственно кодовые слова адаптивного и фиксированного словарей, и
Figure 00000039
и
Figure 00000040
- связанные декодированные коэффициенты усиления. Данное возбуждение
Figure 00000041
применяется в адаптивном словаре следующего подкадра; затем оно подвергается пост-обработке и, как и в G.718, возбуждение
Figure 00000042
(также обозначаемое exc) отличается от его модифицированной подвергнутой пост-обработке версии
Figure 00000043
(также обозначаемой exc2), которая служит в качестве входного сигнала для синтезирующего фильтра
Figure 00000044
в блоке 303;
синтезирующую фильтрацию
Figure 00000044
(блок 303), где декодированный фильтр LPC
Figure 00000045
имеет 16-й порядок;
узкополосную пост-обработку (блок 304) в соответствии с пунктом 7.3 G.718, если fs=8 кГц;
компенсацию предыскажений (блок 305) посредством фильтра
Figure 00000046
;
пост-обработку низких частот (называемую «постфильтром низкой звуковой частоты») (блок 306), подавляющую перекрестные гармонические помехи на низких частотах, как описано в пункте 7.14.1.1 в G.718. Данная обработка вводит задержку, которая учитывается при декодировании верхнего диапазона (> 6,4 кГц);
передискретизацию внутренней частоты 12,8 кГц на выходной частоте fs (блок 307). Возможен ряд вариантов осуществления. Без потери общности, здесь рассматривается, в качестве примера, что если fs=8 или 16 кГц, то передискретизация, описанная в пункте 7.6 в G.718 повторяется здесь, а если fs=32 или 48 кГц, то применяются дополнительные фильтры с конечной импульсной характеристикой (FIR);
вычисление параметров «порогового шумоподавителя» (блок 308), преимущественно проводимое, как описано в пункте 7.14.3 в G.718, чтобы «повысить» качество периодов паузы посредством снижения уровня.
В вариантах, которые могут реализовываться для изобретения, операции пост-обработки, применяемые к возбуждению могут изменяться (например, дисперсия фазы может увеличиваться) или данные операции пост-обработки могут быть расширены (например, может реализовываться снижение перекрестных гармонических помех), не влияя на характер расширения диапазона.
Следует отметить, что использование блоков 306, 308, 314 не является обязательным.
Кроме того, следует отметить, что декодирование нижнего диапазона, описанное выше, предполагает так называемый «активный» текущий кадр со скоростью цифрового потока от 6,6 до 23,85 кбит/с. Фактически, когда режим DTX активируется, определенные кадры могут кодироваться как «неактивные», и в этом случае можно либо передать дескриптор паузы (по 35 бит), либо не передавать ничего. В частности, следует напомнить, что кадр SID описывает ряд параметров: параметры ISF, усредненные по 8 кадрам, среднюю энергию по 8 кадрам, флаг «сглаживания» для восстановления нестационарного шума. Во всех случаях в декодере используется такая же модель декодирования, как и для активного кадра, с восстановлением возбуждения и фильтра LPC для текущего кадра, что дает возможность применять расширение диапазона даже к неактивным кадрам. То же самое замечание относится к декодированию «потерянных кадров» (или FEC, PLC), в которых применяется LPC модель.
В варианте осуществления, описанном здесь, и со ссылкой на фиг. 7, декодер дает возможность расширить декодированный нижний диапазон (50-6400 Гц, учитывающий 50 Гц высокочастотной фильтрации в декодере, 0-6400 Гц в общем случае) до расширенного диапазона, ширина которого изменяется в диапазоне приблизительно от 50-6900 Гц до 50-7700 Гц в зависимости от режима, реализованного в текущем кадре. Таким образом, его можно отнести к первому диапазону частот от 0 до 6400 Гц и второй диапазон частот от 6400 до 8000 Гц. В действительности, в предпочтительном варианте осуществления расширение возбуждения выполняется в частотной области в диапазоне от 5000 до 8000 Гц, чтобы обеспечить возможность полосовой фильтрации с шириной от 6000 до 6900 или 7700 Гц.
При скорости 23,85 кбит/с корректирующая информация HF усиления (0,8 кбит/с), передаваемая при 23,85 кбит/с, здесь декодируется. Ее использование подробно описано ниже со ссылкой на фиг. 4. Синтезирующую часть верхнего диапазона получают в блоке 309, представляющем устройство расширения диапазона, используемое для изобретения, и которое подробно изображено на фиг. 7 в варианте осуществления.
В целях совмещения декодированных нижних и верхних диапазонов, вводится задержка (блок 310) для синхронизации выходных сигналов блоков 306 и 307, и верхний диапазон, синтезируемый на частоте 16 кГц, подвергается передискретизации из 16 кГц в частоту fs (выходной сигнал блока 311). Значение задержки T зависит от того, как синтезируется сигнал верхнего диапазона, и от частоты fs как в пост-обработке низких частот. Таким образом, в целом, значение Т в блоке 310 должно регулироваться в соответствии с конкретной реализацией.
Затем нижние и верхние диапазоны объединяются (складываются) в блоке 312 и полученный синтез подвергается пост-обработке посредством высокочастотной фильтрации (типа IIR) 50 Гц порядка 2, коэффициенты которой зависят от частоты fs (блок 313) и выходной пост-обработки с необязательным применением «порогового шумоподавителя» способом, подобным G.718 (блок 314).
На фиг. 3 описывается один вариант осуществления устройства определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения в процессе расширения диапазона частот. Данное устройство входит в блок 309 расширения диапазона, описанный выше.
Таким образом, в блоке 400 из сигнала возбуждения, декодированного в первом диапазоне частот
Figure 00000047
, выполняется расширение диапазона для получения расширенного сигнала возбуждения
Figure 00000048
по меньшей мере одного второго диапазона частот.
Следует отметить, что в данном случае оценка оптимизированного масштабного коэффициента в соответствии с изобретением не зависит от того, как получен сигнал
Figure 00000048
. Одно условие относительно его энергии все-таки является важным. Действительно, энергия верхнего диапазона от 6000 до 8000 Гц должна быть на уровне, подобном энергии диапазона от 4000 до 6000 Гц декодированного сигнала возбуждения на выходе блока 302. Кроме того, поскольку в сигнале нижнего диапазона компенсируются предыскажения (блок 305), компенсация предыскажений должна также применяться к сигналу возбуждения верхнего диапазона либо посредством специального фильтра компенсации предыскажений, либо посредством умножения на постоянный коэффициент, который соответствует среднему коэффициенту подавления упомянутого фильтра. Это условие не распространяется на случай скорости цифрового потока 23,85 кбит/сек, при которой используется дополнительная информация, передаваемая кодером. В этом случае энергия сигнала верхнего диапазона возбуждения должна согласовываться с энергией сигнала, соответствующего кодеру, как описано ниже.
Расширение диапазона частот может, например, реализовываться таким же образом, как для декодера типа AMR-WB, описанного со ссылкой на фиг. 1, в блоках 100-102 из белого шума.
В другом варианте осуществления это расширение диапазона может выполняться из объединения белого шума и декодированного сигнала возбуждения, как показано и описано ниже для блоков 700-707 на фиг. 7.
Конечно для блока 400 могут предусматриваться и другие способы расширения диапазона частот при сохранении уровня энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, как описано ниже.
Кроме того, модуль расширения диапазона может быть также зависимым от декодера и может выполнять расширение диапазона для существующего звукового сигнала, хранящегося или передающегося на модуль расширения с анализом звукового сигнала, чтобы извлечь из него возбуждение и фильтр LPC. В этом случае, сигнал возбуждения на входе в модуль расширения больше не является декодированным сигналом, а является сигналом, извлеченным после анализа, подобно коэффициентам фильтра линейного предсказания первого диапазона частот, используемым в способе определения оптимизированного масштабного коэффициента в реализации настоящего изобретения.
В примере, показанном на фиг. 4, первым рассматривается случай скоростей цифрового потока <23,85 кбит/с, для которых определение оптимизированного масштабного коэффициента ограничивается блоком 401.
В этом случае вычисляется оптимизированный масштабный коэффициент, обозначаемый
Figure 00000049
. В одном варианте осуществления данное вычисление выполняется преимущественно для каждого подкадра и заключается в выравнивании уровней частотных характеристик фильтров LPC
Figure 00000044
и
Figure 00000050
, применяемых для низких и высоких частот, как описано ниже со ссылкой на фиг. 7, с дополнительными мерами предосторожности, чтобы избежать случаев завышения оценки, которые могут привести к чрезмерной энергии синтезированного верхнего диапазона и, следовательно, генерировать слышимые искажения.
В альтернативном варианте осуществления можно будет оставить экстраполированный HF синтезирующий фильтр
Figure 00000051
, как это реализовано в декодере AMR-WB или декодере, который может взаимодействовать с кодером/декодером AMR-WB, например, в соответствии с Рекомендацией ITU-T G.718, вместо фильтра
Figure 00000050
. Затем согласно изобретению выполняется компенсация посредством фильтров
Figure 00000044
и
Figure 00000051
.
Определение оптимизированного масштабного коэффициента также выполняется посредством определения (в блоке 401а) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания в первом диапазоне частот
Figure 00000044
, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Затем вычисляется (в 401b) оптимизированный масштабный коэффициент в зависимости по меньшей мере от этих коэффициентов для применения к расширенному сигналу возбуждения
Figure 00000048
.
Принцип определения оптимизированного масштабного коэффициента, реализованный в блоке 401, показан на фиг. 5а и 5b на конкретных примерах, полученных из сигналов, подвергнутых дискретизации на частоте 16 кГц; амплитудные значения частотных характеристик 3 фильтров, обозначенные ниже, как R, P, Q, вычисляются на общей частоте 6000 Гц (вертикальная пунктирная линия) в текущем подкадре, индекс m которых не упоминается здесь в обозначениях фильтров LPC, интерполированных по подкадру, для упрощения текста. Значение 6000 Гц выбирается потому, что оно близко к частоте Найквиста в нижнем диапазоне, то есть 6400 Гц. Предпочтительно не принимать данную частоту Найквиста для определения оптимизированного масштабного коэффициента. Действительно, энергия декодированного сигнала в области низких частот, как правило, уже подавляется на частоте 6400 Гц. Кроме того, расширение диапазона, описанное здесь, выполняется во втором диапазоне частот, называемым верхним диапазоном, который находится в пределах от 6000 до 8000 Гц. Следует отметить, что в вариантах осуществления настоящего изобретения может быть выбрана частота, отличная от 6000 Гц, без потери общности для определения оптимизированного масштабного коэффициента. Также можно будет рассмотреть случай, когда два фильтра LPC определяются для отдельных диапазонов (как в AMR-WB+). В этом случае, R, Р и Q будут вычисляться на частоте разделения.
На фиг. 5а и 5b изображено, как определяются величины R, P, Q.
Первый этап состоит в вычислении частотных характеристик
Figure 00000052
и
Figure 00000053
соответственно фильтра линейного предсказания первого диапазона частот (нижнего диапазона) и второго диапазона частот (верхнего диапазона) на частоте 6000 Гц. Сначала вычисляется следующее:
Figure 00000054
где
Figure 00000055
- порядок декодированного фильтра LPC,
Figure 00000044
, и
Figure 00000056
соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, а именно:
Figure 00000057
.
Затем, подобным образом, вычисляется следующее:
Figure 00000058
где
Figure 00000059
.
В предпочтительном варианте осуществления величины
Figure 00000060
и
Figure 00000061
вычисляются по следующему псевдокоду:
px=py=0
rx=ry=0
for i=0 to 16
px=px+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33-i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33-i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ry)
где Aq[i]=
Figure 00000062
соответствует коэффициентам
Figure 00000063
(16-го порядка), Ap[i]=
Figure 00000064
соответствует коэффициенту
Figure 00000065
, sqrt() соответствует операции извлечения квадратного корня и таблицы exp_tab_p и exp_tab_q размером 34 содержат реальные и мнимые части комплексных экспонент, связанных с частотой 6000 Гц, с
exp_tab_p[i]=
Figure 00000066
exp_tab_q[i]=
Figure 00000067
Дополнительный фильтр предсказания получают, например, соответствующим усечением полинома
Figure 00000063
до 2-го порядка.
Фактически, непосредственное усечение порядка приводит к получению фильтра
Figure 00000068
, который может представлять собой проблему, потому что в основном ничто не может гарантировать, что этот фильтр 2-го порядка является устойчивым. Вследствие этого, в предпочтительном варианте осуществления выявляется устойчивость фильтра
Figure 00000068
, и применяется фильтр
Figure 00000069
, коэффициенты которого выводят из
Figure 00000068
в зависимости от обнаружения неустойчивости. Более конкретно, задается следующее:
Figure 00000070
, i=1, 2
Устойчивость фильтра
Figure 00000068
может быть проверена по-разному; в данном случае используется преобразование в области коэффициентов PARCOR (или коэффициентов отражения) посредством вычисления:
Figure 00000071
Figure 00000072
Устойчивость подтверждается, если
Figure 00000073
, i=1, 2. Следовательно, значение
Figure 00000074
условно изменяется до проверки устойчивости фильтра с помощью следующих этапов:
Figure 00000075
Figure 00000076
где min(.,.) и max(.,.) соответственно дают минимум и максимум из 2 операндов.
Следует отметить, что пороговые значения, 0,99 для
Figure 00000077
и 0,6 для
Figure 00000078
, могут регулироваться в вариантах изобретения. Следует напомнить, что первый коэффициент отражения
Figure 00000077
характеризует крутизну спектра (или наклон) сигнала, смоделированного 1-м порядком; в изобретении величина
Figure 00000077
насыщается при величине, близкой к границе устойчивости, с целью сохранения данного наклона и удержания наклона, подобного
Figure 00000079
. Также следует напомнить, что второй коэффициент отражения
Figure 00000080
характеризует резонансный уровень сигнала, смоделированного 2-м порядком; так как применение фильтра 2-го порядка имеет целью устранить влияние таких резонансов поблизости частоты 6000 Гц, значение
Figure 00000080
ограничивается более сильно; данное ограничение устанавливается на уровне 0,6.
Затем получают коэффициенты
Figure 00000069
:
Figure 00000081
Figure 00000082
В заключение, в следствие этого, вычисляется частотная характеристика дополнительного фильтра:
Figure 00000083
с
Figure 00000057
. Эта величина вычисляется преимущественно в соответствии со следующим псевдокодом:
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_tab_q[i];
qy=qy+As[i]*exp_tab_q[33-i];
end for
Q=1/sqrt(qx*qx+qy*qy)
где As[i]=
Figure 00000084
.
Без потери общности можно вычислить коэффициенты фильтра 2-го порядка иным способом, например, путем применения к фильтру LPC
Figure 00000085
16-го порядка процедуры снижения порядка LPC, называемой «понижающей», описанной в J.D. Markel and A.H. Gray, Linear Prediction of Speech, Springer Verlag, 1976, или выполняя две итерации алгоритма Левинсона-Дарбина (или повышающего) из автокорреляций, вычисленных по сигналу, синтезированному (декодированному) на частоте 12,8 кГц и обработанными методом окна.
Для некоторых сигналов, величина
Figure 00000086
, вычисленная из первых 3 декодированных коэффициентов LPC, лучше учитывает влияние крутизны спектра (или наклона) в спектре и позволяет избежать влияния «ложных» пиков или минимумов, близких к 6000 Гц, которые могут исказить или повысить значение величины
Figure 00000052
, вычисленной из всех коэффициентов LPC.
В предпочтительном варианте осуществления оптимизированный масштабный коэффициент условно выводится из предварительно вычисленных величин R, P, Q, а именно:
Если наклон (вычисляется как в AMR-WB в блоке 104 посредством нормализованной автокорреляции в виде r(1)/r(0), где r(i) - автокорреляция) является отрицательным (наклон <0 как представлено на фиг. 5b), вычисление масштабного коэффициента происходит следующим образом:
чтобы избежать искажений вследствие слишком резких изменений энергии верхнего диапазона, к значению
Figure 00000052
применяется сглаживание. В предпочтительном варианте осуществления экспоненциальное сглаживание выполняется с фиксированным во времени коэффициентом (0,5) в виде:
Figure 00000087
Figure 00000088
где
Figure 00000089
соответствует величине
Figure 00000052
в предыдущем подкадре, и коэффициент 0,5 оптимизирован эмпирически - очевидно, что коэффициент 0,5 может меняться для другого значения, и также возможны другие способы сглаживания. Следует отметить, что сглаживание позволяет снизить временные видоизменения и, следовательно, избежать искажений.
Затем оптимизированный масштабный коэффициент задается по формуле:
Figure 00000090
В альтернативном варианте осуществления возможна замена сглаживания
Figure 00000052
на сглаживание
Figure 00000091
таким образом, что:
Figure 00000092
Если наклон (вычисляется как в AMR-WB в блоке 104) является положительным (наклон> 0, как на фиг. 5a), вычисление масштабного коэффициента выполняется следующим образом:
величина
Figure 00000052
сглаживается адаптивно во времени посредством более сильного сглаживания, когда
Figure 00000052
низкая - как и в предыдущем случае это сглаживание позволяет сократить временные изменения и, следовательно, позволяет избежать искажений:
Figure 00000093
при
Figure 00000094
Figure 00000088
Затем оптимизированный масштабный коэффициент определяется по формуле:
Figure 00000095
В альтернативном варианте осуществления возможна замена сглаживания
Figure 00000052
на сглаживание
Figure 00000091
, как вычислено выше.
Figure 00000096
,
Figure 00000097
,
Figure 00000098
где
Figure 00000099
- масштаб или коэффициент усиления, вычисленный для последнего подкадра предыдущего кадра.
Минимум из R, P, Q в данном случае берется для того, чтобы избежать завышенной оценки масштабного коэффициента.
В одном варианте указанное выше условие, зависящее только от наклона, может расширяться, чтобы учитывать не только параметр наклона, но и другие параметры для того, чтобы уточнить решение. Кроме того, вычисление
Figure 00000100
может регулироваться в соответствии с этими указанными дополнительными параметрами.
Примером дополнительного параметра является количество переходов через нуль (ZCR, частота переходов через нуль), которые можно определить как:
Figure 00000101
где
Figure 00000102
Параметр
Figure 00000103
, как правило, дает результаты, аналогичные наклону. Удовлетворительным критерием классификации является отношение
Figure 00000104
, вычисленного для синтезированного сигнала
Figure 00000105
, к
Figure 00000106
, вычисленному для сигнала возбуждения
Figure 00000107
на частоте 12800 Гц. Это отношение находится в диапазоне от 0 до 1, где 0 означает, что сигнал имеет снижающийся спектр, а 1 означает, что спектр возрастает (что соответствует
Figure 00000108
. В этом случае отношение
Figure 00000109
> 0,5 соответствует случаю
Figure 00000110
<0, а отношение
Figure 00000109
<0,5 соответствует
Figure 00000111
> 0.
В одном варианте возможно использование функции параметра
Figure 00000112
, где
Figure 00000112
- наклон, вычисленный для синтезированного сигнала
Figure 00000105
, фильтруемого фильтром высоких частот с частотой среза, например, 4800 Гц; в этом случае характеристика
Figure 00000113
от 6 до 8 кГц (применяемая на 16 кГц) соответствует взвешенной характеристике
Figure 00000114
от 4,8 до 6,4 кГц. Так как
Figure 00000113
имеет более уплощенную характеристику, необходимо компенсировать это изменение наклона. Затем в варианте осуществления задается функция масштабного коэффициента в соответствии с
Figure 00000112
по:
Figure 00000115
.
Figure 00000116
и
Figure 00000117
, таким образом, умножаются на
Figure 00000118
, если
Figure 00000119
>0 или на
Figure 00000120
, если
Figure 00000119
<0.
Теперь рассматривается случай скорости цифрового потока 23,85 кбит/с, для которого осуществляется коррекция усиления посредством блоков 403-408. Кроме того, данная коррекция усиления может быть объектом отдельного изобретения. В этом конкретном варианте осуществления в соответствии с изобретением, информация коррекции усиления, обозначенная
Figure 00000121
, передаваемая посредством AMR-WB (совместимого) кодирования со скоростью цифрового потока 0,8 кбит/с используется для улучшения качества при 23,85 кбит/с.
В данном случае предполагается, что AMR-WB (совместимое) кодирование осуществляет квантование коррекции усиления по 4 битам, как описано в пункте G.722.2/5.11 Рекомендации ITU-T или, что эквивалентно, в пункте TS 26.190/5.11 спецификации 3GPP.
В кодере AMR-WB коррекция усиления вычисляется путем сравнения энергии исходного сигнала, подвергнутого дискретизации с частотой 16 кГц и отфильтрованного посредством полосового фильтра с полосой 6-7 кГц,
Figure 00000122
, с энергией белого шума на частоте 16 кГц, отфильтрованного синтезирующим фильтром
Figure 00000025
и полосовым фильтром с полосой 6-7 кГц (до фильтрации энергия шума устанавливается на уровне, подобном возбуждению на частоте 12,8 кГц),
Figure 00000123
. Коэффициент усиления равен корню из отношения энергии исходного сигнала к энергии шума, разделенной на два. В одном возможном варианте осуществления возможна замена полосового фильтр на фильтр с более широкой полосой (например, от 6 до 7,6 кГц).
Figure 00000124
,
Figure 00000125
Для возможности применения информации усиления, полученной при 23,85 кбит/с (в блоке 407), важно приблизить возбуждение до уровня, близкого к тому, что ожидается от (совместимого) кодирования AMR-WB. Таким образом, в блоке 404 выполняется масштабирование сигнала возбуждения в соответствии с уравнением:
Figure 00000126
,
Figure 00000127
где
Figure 00000128
- коэффициент усиления на отдельный подкадр, вычисленный в блоке 403 в виде:
Figure 00000129
где коэффициент 5 в знаменателе предназначен для компенсации разности между пропускной способностью сигнала
Figure 00000130
и сигнала
Figure 00000131
, учитывая, что в кодировании AMR-WB возбуждение HF является белым шумом в диапазоне 0-8000 Гц.
Индекс из 4 битов на подкадр, обозначенный
Figure 00000132
, посылаемый при скорости 23,85 кбит/с демультиплексируется из битового потока (блок 405) и декодируется блоком 406 следующим образом:
Figure 00000133
где
Figure 00000134
- словарь квантования усиления HF, определенный в AMR-WB кодировании и выведенный ниже:
Таблица 1 (словарь усиления при скорости 23,85 кбит/с)
i HP_gain(i) I HP_gain(i)
0 0,110595703125000 8 0,342102050781250
1 0,142608642578125 9 0,372497558593750
2 0,170806884765625 10 0,408660888671875
3 0,197723388671875 11 0,453002929687500
4 0,226593017578125 12 0,511779785156250
5 0,255676269531250 13 0,599822998046875f
6 0,284545898437500 14 0,741241455078125
7 0,313232421875000 15 0,998779296875000
В блоке 407 выполняется масштабирование сигнала возбуждения согласно следующему уравнению:
Figure 00000135
,
Figure 00000127
В заключение, энергия возбуждения регулируется на уровне текущего подкадра при следующих условиях (блок 408). Ниже приводится вычисление:
Figure 00000136
Числитель здесь представляет энергию сигнала верхнего диапазона, который был бы получен в режиме 23.05. Как объяснено выше, для скоростей цифрового потока <23,85 кбит/с, необходимо сохранить уровень энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения
Figure 00000131
, но это ограничение не является необходимым в случае скорости цифрового потока 23,85 кбит/с, так как
Figure 00000131
в этом случае масштабируется коэффициентом усиления
Figure 00000128
. Чтобы избежать операций двойного умножения, некоторые операции умножения, применяемые к сигналу в блоке 400, применяются в блоке 402 посредством умножения на
Figure 00000137
. Значение
Figure 00000137
зависит от
Figure 00000131
алгоритма синтеза и должно регулироваться таким образом, чтобы уровень энергии между декодированным сигналом возбуждения в нижнем диапазоне и сигналом
Figure 00000138
сохранялся.
В конкретном варианте осуществления, который описывается более подробно ниже со ссылкой на фиг. 7,
Figure 00000139
, где
Figure 00000140
- коэффициент усиления, который обеспечивает для сигнала
Figure 00000141
то же самое отношение энергии на подкадр и энергии на кадр, что и для сигнала
Figure 00000142
, и 0,6 соответствует среднему значению амплитуды частотной характеристики фильтра компенсации предыскажений в диапазоне от 5000 до 6400 Гц.
Предполагается, что в блоке 408 существует информация о наклоне сигнала нижнего диапазона - в предпочтительном варианте осуществления этот наклон вычисляется как в кодеке AMR-WB в соответствии с блоками 103 и 104, но для оценки наклона возможны и другие способы без изменения принципа изобретения.
Если
Figure 00000143
> 1 или наклон < 0, предполагается следующее:
Figure 00000144
,
Figure 00000127
В противном случае:
Figure 00000145
,
Figure 00000127
Следует отметить, что вычисление оптимизированного масштабного коэффициента, описанное в данном документе, в частности, в блоках 401 и 402, отличается от вышеуказанного выравнивания уровней фильтра, выполняемого в кодеке AMR-WB+, рядом аспектов:
Оптимизированный масштабный коэффициент вычисляется непосредственно из передаточных функций фильтров LPC без привлечения какой-либо временной фильтрации. Это упрощает способ.
Выравнивание выполняется предпочтительно на частоте, отличающейся от частоты Найквиста (6400 Гц), относящейся к нижнему диапазону. Действительно, моделирование LPC неявно представляет подавление сигнала, как правило, вызванное операциями передискретизации и, следовательно, частотная характеристика фильтра LPC может подвергаться снижению на частоте Найквиста, которая не является выбранной общей частотой.
При этом выравнивание опирается на фильтр низкого порядка (в данном случае 2-го порядка), в дополнение к 2 фильтрам, которые будут выравниваться. Этот дополнительный фильтр делает возможным предотвращение последствий локальных спектральных отклонений (пиков или минимумов), которые могут присутствовать на общей частоте для вычисления частотной характеристики фильтров предсказания.
Для блоков 403-408 преимущество настоящего изобретения состоит в том, что качество сигнала, декодированного при скорости 23,85 кбит/с, в соответствии с изобретением улучшается по сравнению с сигналом, декодированным при 23,05 кбит/с, что не является случаем в декодере AMR-WB. Фактически, данный аспект изобретения позволяет использовать дополнительную информацию (0,8 кбит/с), получаемую при скорости 23,85 кбит/с, но управляемым способом (блок 408), чтобы улучшить качество расширенного сигнала возбуждения при скорости цифрового потока 23,85.
Устройство определения оптимизированного масштабного коэффициента, как показано блоками 401-408 на фиг. 4, реализует способ определения оптимизированного масштабного коэффициента, описанный ниже со ссылкой на фиг. 6.
Основные этапы осуществляются в блоке 401.
Таким образом, расширенный сигнал возбуждения u HB (n) получают в способе E601 расширения диапазона частот, который включает этап декодирования или извлечения в первом диапазоне частот, называемом нижним диапазоном, сигнала возбуждения и параметров первого диапазона частот, таких как, например, коэффициенты фильтра линейного предсказания первого диапазона частот.
Этап E602 определяет фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр первого диапазона частот. Чтобы определить этот фильтр, применяются декодированные или извлеченные параметры первого диапазона частот.
В одном варианте осуществления данный этап выполняется усечением передаточной функции фильтра линейного предсказания нижнего диапазона для получения более низкого порядка фильтра, например, 2-го. Данные коэффициенты могут изменяться в зависимости от критерия устойчивости, как описано выше со ссылкой на фиг. 4.
Из коэффициентов дополнительного фильтра, определенных таким образом, реализуется этап E603 для вычисления оптимизированного масштабного коэффициента, который должен применяться к расширенному сигналу возбуждения. Данный оптимизированный масштабный коэффициент, например, вычисляется по частотной характеристике дополнительного фильтра на общей частоте между нижним диапазоном (первым диапазоном частот) и верхним диапазоном (вторым диапазоном частот). Минимальное значение может выбираться между частотной характеристикой данного фильтра и фильтров нижнего диапазона и верхнего диапазона.
Таким образом, это позволяет избежать завышенной оценки энергии, что могло бы иметь место в способах уровня техники.
Данный этап вычисления оптимизированного масштабного коэффициента, например, описывается выше со ссылкой на фиг. 4 и фиг. 5a и 5b.
Этап E604, выполняемый в блоке 402 или 409 (в зависимости от скорости декодирования цифрового потока) для расширения диапазона, применяет надлежащим образом вычисленный оптимизированный масштабный коэффициент к расширенному сигналу возбуждения таким образом, чтобы получить оптимизированный расширенный сигнал возбуждения u HB '(n).
В конкретном варианте осуществления устройство определения оптимизированного масштабного коэффициента 708 встраивается в устройство расширения диапазона, описанное со ссылкой на фиг. 7. Данное устройство определения оптимизированного масштабного коэффициента, показанное в виде блока 708, реализует способ определения оптимизированного масштабного коэффициента, описанный выше со ссылкой на фиг. 6.
В этом варианте осуществления блок 400 расширения диапазона на фиг. 4 содержит блоки 700-707 на фиг. 7, описанные далее.
Таким образом, на входе устройства расширения диапазона принимается сигнал нижнего диапазона возбуждения, декодированный или оцененный посредством анализа (
Figure 00000146
). При расширении диапазона в данном случае применяется возбуждение, декодированное на частоте 12,8 кГц (exc2 или
Figure 00000146
) на выходе блока 302, показанного на фиг. 3.
Следует отметить, что в этом варианте осуществления генерация расширенного возбуждения с избыточной частотой дискретизации выполняется в диапазоне частот 5-8 кГц, следовательно, включающем второй диапазон частот (6,4-8 кГц), находящийся выше первого диапазона частот (0-6,4 кГц).
Таким образом, генерация расширенного сигнала возбуждения осуществляется по меньшей мере во втором диапазоне частот, но и в части первого диапазона частот.
Очевидно, что значения, определяющие эти диапазоны частот, могут быть разными в зависимости от декодера или устройства обработки, в котором применяется изобретение.
Для этого примерного варианта осуществления данный сигнал преобразуется для получения спектра сигнала возбуждения
Figure 00000147
модулем 500 частотно-временного преобразования.
В конкретном варианте осуществления преобразование использует DCT-IV («дискретное косинусное преобразование» IV типа) (блок 700) на текущем кадре 20 мс (256 отсчетов), без применения окна, что сводится к непосредственному преобразованию
Figure 00000146
с
Figure 00000148
в соответствии со следующей формулой:
Figure 00000149
где
Figure 00000150
и
Figure 00000151
.
Следует отметить, что преобразование без обработки методом окна (или, что эквивалентно, преобразованию с неявным прямоугольным окном длины кадра) возможно потому, что обработка выполняется в области возбуждения, а не в области сигнала, таким образом, чтобы не были слышны искажения (влияния блоков), что является важным преимуществом данного варианта осуществления настоящего изобретения.
В данном варианте осуществления преобразование DCT-IV реализуется посредством FFT в соответствии с так называемым « Evolved DCT (EDCT)» алгоритмом, описанным в статье D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149, and implemented in the ITU-T standards G.718 Annex B and G.729.1 Annex E.
В вариантах осуществления изобретения и без ограничения общности преобразование DCT-IV может быть заменено другими краткосрочными частотно-временными преобразованиями той же длины в области возбуждения, такими как FFT («быстрое преобразование Фурье») или DCT-II (дискретное косинусное преобразование II типа). В альтернативном варианте возможна замена DCT-IV в кадре на преобразование с перекрытием-сложением и применением окна с длиной, большей, чем длина текущего кадра, например с помощью MDCT («модифицированного дискретного косинусного преобразования»). В этом случае задержка T в блоке 310, показанном на фиг. 3, должна быть должным образом отрегулирована (уменьшена) в зависимости от дополнительной задержки из-за анализа/синтеза посредством данного преобразования.
Затем спектр DCT
Figure 00000152
256 отсчетов, охватывающих диапазон 0-6400 Гц (на частоте 12,8 кГц), расширяется (блок 701) в спектр 320 отсчетов, охватывающих диапазон 0-8000 Гц (на частоте 16 кГц) в следующем виде:
Figure 00000153
где предпочтительно принимается, что start_band=160.
Блок 701 работает как модуль генерации расширенного сигнала возбуждения с избыточной частотой дискретизации и выполняет передискретизацию с частоты 12,8 до 16 кГц в частотной области посредством добавления ¼ отсчетов (
Figure 00000154
) в спектр, при этом отношение 16 к 12,8 составляет 5/4.
Кроме того, блок 701 выполняет неявную высокочастотную фильтрацию в диапазоне 0-5000 Гц, так как первые 200 отсчетов
Figure 00000155
устанавливаются на ноль; как описано ниже, данная высокочастотная фильтрация также дополняется частью монотонно возрастающего затухания спектральных значений индексов
Figure 00000156
в диапазоне 5000-6400 Гц; это монотонно возрастающее затухание реализуется в блоке 704, но может быть выполняться отдельно вне блока 704. Равносильно тому, что и в вариантах настоящего изобретения, внедрение высокочастотной фильтрации, разделенной на блоки коэффициентов индекса
Figure 00000157
, установленных в ноль, затухающих коэффициентов
Figure 00000156
в преобразованной области, можно будет, в силу вышесказанного, выполнять в ходе одного этапа.
В этом примерном варианте осуществления и в соответствии с определением
Figure 00000155
, следует отметить, что диапазон 5000-6000 Гц
Figure 00000155
(что соответствует индексам
Figure 00000158
) копируется из диапазона 5000-6000 Гц
Figure 00000152
. Данный подход позволяет сохранить исходный спектр в этом диапазоне и позволяет избежать введения искажения в диапазоне 5000-6000 Гц при сложении синтеза HF с синтезом LF, в частности, фаза сигнала (неявно представленная в обрасти DCT-IV) в данном диапазоне сохраняется.
Диапазон 6000-8000 Гц
Figure 00000155
в данном случае определяется посредством копирования диапазона 4000-6000 Гц
Figure 00000152
, поскольку значение start_band предпочтительно устанавливается равным 160.
В одном варианте варианта осуществления значение start_band может подстраиваться вблизи значения 160. Подробности подстройки значения start_band в данном документе не описываются, потому что они выходят за рамки изобретения без изменения его объема.
Для некоторых широкополосных сигналов (подвергнутых дискретизации на частоте 16 кГц) верхний диапазон (> 6 кГц), может быть зашумленным, гармоническим или содержать смесь шума и гармоник. Кроме того, уровень гармоничности в диапазоне 6000-8000 Гц полосы, как правило, коррелирует с уровнем в более низкочастотных диапазонах. Таким образом, блок 702 генерации шума выполняет генерацию шума в частотной области, U HBN(k) для
Figure 00000159
(80 отсчетов), что соответствует второму диапазону частот, называемому высокочастотным, с целью последующего объединения этого шума со спектром
Figure 00000155
в блоке 703.
В конкретном варианте осуществления шум (в диапазоне 6000-8000 Гц) генерируется псевдослучайно посредством линейного конгруэнтного генератора на 16 бит:
Figure 00000160
с правилом, что
Figure 00000161
в текущем кадре соответствует значению
Figure 00000162
предыдущего кадра. В вариантах изобретения возможна замена данной генерации шума посредством других способов.
Блок 703 объединения может быть получен различными путями. В предпочтительном варианте адаптивное аддитивное микширование учитывается в следующем виде:
Figure 00000163
,
Figure 00000164
где
Figure 00000165
- нормирующий множитель, предназначенный для выравнивания уровня энергии между двумя сигналами,
Figure 00000166
при
Figure 00000167
= 0,01, и коэффициент
Figure 00000168
(между 0 и 1) регулируется в зависимости от параметров, оцененных из декодированного нижнего диапазона, и коэффициент
Figure 00000169
(между 0 и 1) зависит от
Figure 00000170
.
В предпочтительном варианте осуществления энергия шума вычисляется в трех диапазонах: 2000-4000 Гц, 4000-6000 Гц и 6000-8000 Гц, с
Figure 00000171
Figure 00000172
Figure 00000173
где
Figure 00000174
и
Figure 00000175
- множество индексов
Figure 00000176
, для которых коэффициент индекса
Figure 00000176
классифицируется как связанный с шумом. Данное множество может, например, быть получено посредством выявления локальных пиков в
Figure 00000177
, что проверяет
Figure 00000178
, и посредством учета того, что эти лучи не связаны с шумом, т. е. (посредством применения отрицания предыдущего условия):
Figure 00000179
.
Следует отметить, что возможны другие способы вычисления энергии шума, например, посредством медианного значения спектра на рассматриваемом диапазоне или посредством применения сглаживания к каждому частотному лучу перед вычислением энергии в расчете на диапазон.
Figure 00000170
устанавливается таким образом, что отношение энергии шума в диапазонах 4-6 кГц и 6-8 кГц является таким же, что и в диапазонах 2-4 кГц и 4-6 кГц:
Figure 00000180
где
Figure 00000181
В вариантах изобретения вычисление
Figure 00000182
возможно заменить другими способами. Например, как вариант, возможно извлечение (вычисление) различных параметров (или «признаков»), характеризующих сигнал в нижнем диапазоне, включая параметр «наклон», подобно вычисляемому в кодеке AMR-WB, и коэффициент
Figure 00000182
будет оцениваться в зависимости от линейной регрессии этих различных параметров посредством ограничения его значения между 0 и 1. Линейную регрессию, например, можно оценить контролируемым образом посредством оценки коэффициента
Figure 00000182
путем замены оригинального верхнего диапазона в обучающей базе. Следует отметить, что то, каким образом вычисляется
Figure 00000168
, не ограничивает сущность изобретения.
В предпочтительном варианте осуществления принимается следующее:
Figure 00000183
с целью сохранения энергии расширенного сигнала после микширования.
В одном варианте коэффициенты
Figure 00000169
и
Figure 00000168
могут быть адаптированы для принятия во внимание того факта, что шум, введенный в заданный диапазон сигнала, как правило, воспринимается сильнее, чем гармонический сигнал с той же энергией в том же диапазоне. Таким образом, возможно изменение коэффициентов
Figure 00000169
и
Figure 00000168
следующим образом:
Figure 00000184
Figure 00000185
где
Figure 00000186
- убывающая функция от
Figure 00000168
, например,
Figure 00000187
,
Figure 00000188
,
Figure 00000189
,
Figure 00000190
, ограниченные от 0,3 до 1. Следует отметить, что после умножения на
Figure 00000186
,
Figure 00000191
, так что энергия сигнала
Figure 00000192
ниже, чем энергия
Figure 00000193
(разность энергий зависит от
Figure 00000168
, чем больше добавляется шума, тем больше подавляется энергия).
В других вариантах изобретения можно принять:
Figure 00000194
что дает возможность сохранить уровень амплитуды (при объединении сигналов одинакового знака); однако данный вариант имеет недостаток, в результате которого общая энергия (на уровне
Figure 00000195
) не является монотонной, как функция
Figure 00000168
.
Таким образом, следует отметить, что в блоке 703 выполняются действия, эквивалентные блоку 101, приведенному на фиг. 1, для нормализации белого шума в зависимости от возбуждения, который, в отличие от данного случая, уже расширен в частотной области до частоты 16 кГц; кроме того, микширование ограничивается диапазоном 6000-8000 Гц.
В простом варианте можно считать реализацию блока 703, в котором спектры,
Figure 00000196
или
Figure 00000197
выбираются (переключаются) адаптивно, что сводится к допущению значений только 0 или 1 для α; этот подход сводится к классификации типа возбуждения для генерации в диапазоне 6000-8000 Гц.
В блоке 704 необязательно выполняется двойная операция применения частотной характеристики полосового фильтра и фильтрации предыскажений в частотной области.
В одном варианте изобретения фильтрация предыскажений может выполняться во временной области после блока 705 до блока 700; однако, в этом случае полосовая фильтрация, выполняемая в блоке 704, может оставить определенные низкочастотные компоненты очень низких уровней, которые усиливаются посредством компенсации предыскажений, что может несущественно изменять декодированный нижний диапазон. По этой причине, в данном случае предпочтительно выполнять компенсацию предыскажений в частотной области. В предпочтительном варианте осуществления коэффициенты индекса
Figure 00000198
устанавливаются равными нулю, таким образом, компенсация предыскажений ограничивается старшими коэффициентами.
Сначала компенсируются предыскажения возбуждения в соответствии со следующем уравнением:
Figure 00000199
где
Figure 00000200
- частотная характеристика фильтра
Figure 00000046
в ограниченном дискретном диапазоне частот. Принимая во внимание дискретные (нечетные) частоты DCT-IV,
Figure 00000200
определяется в данном случае как:
Figure 00000201
,
Figure 00000202
где
Figure 00000203
.
В случае, когда применяется преобразование, отличное от DCT-IV, определение
Figure 00000204
можно регулировать (например, для четных частот).
Следует отметить, что компенсация предыскажений применяется в два этапа для
Figure 00000205
, соответствующий диапазону частот 5000-6400 Гц, где характеристика
Figure 00000046
применяется как на частоте 12,8 кГц, и
Figure 00000206
, соответствующий диапазону частот 6400-8000 Гц, где характеристика расширяется от частоты 16 кГц до постоянного значения в диапазоне 6,4-8 кГц.
Следует отметить, что в кодеке AMR-WB для HF синтеза не компенсируются предыскажения.
В варианте осуществления, представленном здесь, для высокочастотного сигнала, наоборот, компенсируются предыскажения для того, чтобы ввести его в область, согласованную с низкочастотным сигналом (0-6,4 кГц), который выходит из блока 305, приведенного на фиг. 3. Это важно для оценки и последующей регулировки энергии синтеза HF.
В одном варианте варианта осуществления с целью уменьшения сложности можно установить
Figure 00000207
равным постоянному значению, независимому от
Figure 00000208
, принимая, например,
Figure 00000209
что примерно соответствует среднему значению
Figure 00000210
для
Figure 00000211
в условиях описанного выше варианта осуществления.
В другом варианте варианта осуществления устройства расширения компенсация предыскажений может выполняться равноценным образом во временной области после обратного DCT.
В дополнение к компенсации предыскажений применяется полосовая фильтрация с двумя отдельными частями: одна - фиксированная высокочастотная, другая - адаптивная низкочастотная (функция скорости цифрового потока).
Данная фильтрация выполняется в частотной области.
В предпочтительном варианте осуществления частичная характеристика фильтра низких частот вычисляется в частотной области следующим образом:
Figure 00000212
где
Figure 00000213
= 60 при скорости 6,6 кбит/с, 40 при скорости 8,85 кбит/с и 20 при скоростях цифрового потока > 8,85 бит/с.
Затем полосовой фильтр применяется в виде:
Figure 00000214
Определение
Figure 00000215
,
Figure 00000216
, дается, например, в таблице 2 ниже.
Таблица 2
K g hp (k) K g hp (k) K g hp (k) K g hp (k)
0 0,001622428 14 0,114057967 28 0,403990611 42 0,776551214
1 0,004717458 15 0,128865425 29 0,430149896 43 0,800503267
2 0,008410494 16 0,144662643 30 0,456722014 44 0,823611104
3 0,012747280 17 0,161445005 31 0,483628433 45 0,845788355
4 0,017772424 18 0,179202219 32 0,510787115 46 0,866951597
5 0,023528982 19 0,197918220 33 0,538112915 47 0,887020781
6 0,030058032 20 0,217571104 34 0,565518011 48 0,905919644
7 0,037398264 21 0,238133114 35 0,592912340 49 0,923576092
8 0,045585564 22 0,259570657 36 0,620204057 50 0,939922577
9 0,054652620 23 0,281844373 37 0,647300005 51 0,954896429
10 0,064628539 24 0,304909235 38 0,674106188 52 0,968440179
11 0,075538482 25 0,328714699 39 0,700528260 53 0,980501849
12 0,087403328 26 0,353204886 40 0,726472003 54 0,991035206
13 0,100239356 27 0,378318805 41 0,751843820 55 1,000000000
Следует отметить, что в вариантах изобретения значения
Figure 00000215
могут изменяться при сохранении монотонно возрастающего затухания. Аналогичным образом, низкочастотная фильтрация с переменной полосой пропускания
Figure 00000217
может регулироваться с помощью значений или частотной среды, которые отличаются, не изменяя принцип этого этапа фильтрации.
Кроме того, следует отметить, что полосовая фильтрация может адаптироваться посредством определения единого этапа фильтрации, объединяющего высокочастотную и низкочастотную фильтрацию.
В другом варианте осуществления полосовая фильтрация может выполняться равноценным образом во временной области (как и в блоке 112 на фиг. 1) с различными коэффициентами фильтра в соответствии со скоростью цифрового потока после этапа обратного DCT. Тем не менее, следует отметить, что предпочтительно выполнить этот этап непосредственно в частотной области, так как фильтрация выполняется в области возбуждения LPC и, следовательно, проблемы циклической свертки и краевых эффектов очень ограничены в этой области.
Кроме того, следует отметить, что, в случае скорости цифрового потока 23,85 кбит/с компенсация предыскажений возбуждения
Figure 00000195
не выполняется, чтобы оставаться в соответствии с тем способом, в котором коррекция усиления вычисляется в кодере AMR-WB, и чтобы избежать операций двойного умножения. В этом случае в блоке 704 выполняется только низкочастотная фильтрация.
В блоке 705 обратного преобразования выполняется обратное DCT на 320 отсчетах, чтобы найти высокочастотное возбуждение, подвергнутое дискретизации с частотой 16 кГц. Его реализация идентична блоку 700, потому что DCT-IV является ортонормированным, за исключением того, что длина преобразования составляет 320 вместо 256, и получается следующее:
Figure 00000218
где
Figure 00000219
и
Figure 00000220
.
Данное возбуждение, подвергнутое дискретизации с частотой 16 кГц, затем необязательно масштабируется посредством коэффициентов усиления, определенных для каждого подкадра 80 отсчетов (блок 707).
В предпочтительном варианте осуществления коэффициент усиления gHB1(m) сначала вычисляется (этап 706) в расчете на подкадр посредством отношений энергий подкадров таким образом, что в каждом подкадре индекса m=0, 1, 2 или 3 текущего кадра:
Figure 00000221
где
Figure 00000222
при
Figure 00000223
= 0,01. Коэффициент усиления на подкадр
Figure 00000224
можно записать в виде:
Figure 00000225
что показывает, что в сигнале
Figure 00000141
обеспечивается такое же отношение энергии на подкадр и энергии на кадр, как в сигнале
Figure 00000142
.
В блоке 707 выполняется масштабирование объединенного сигнала в соответствии со следующим уравнением:
Figure 00000226
,
Figure 00000127
Следует отметить, что реализация блока 706 отличается от блока 101, приведенного на фиг. 1, так как энергия на текущем уровне кадра учитывается в дополнение к этому подкадру. Это обеспечивает отношение энергии каждого подкадра в зависимости от энергии кадра. Следовательно, сравниваются отношения энергий (или относительные энергии), а не абсолютные энергии нижнего диапазона и верхнего диапазона.
Таким образом, данный этап масштабирования позволяет сохранять в верхнем диапазоне отношение энергий подкадра и кадра таким же образом, как в нижнем диапазоне.
В данном случае следует отметить, что в случае скорости цифрового потока 23,85 кбит/с коэффициенты усиления
Figure 00000224
вычисляются, но применяются в следующем этапе, как описано со ссылкой на фиг. 4, чтобы избежать операций двойного умножения. В этом случае
Figure 00000227
.
В соответствии с изобретением затем в блоке 708 выполняется вычисление масштабного коэффициента на подкадр сигнала (этапы E602-E603, показанные на фиг. 6), как описано выше со ссылкой на фиг. 6 и подробно изображено на фиг. 4 и 5.
В заключение, скорректированное возбуждение
Figure 00000228
фильтруется посредством модуля 710 фильтрации, что может выполняться в данном случае посредством принятия в качестве передаточной функции
Figure 00000229
, где
Figure 00000230
= 0,9 при скорости 6,6 кбит/с и
Figure 00000231
= 0,6 при других скоростях цифрового потока, что ограничивает порядок фильтра 16-м порядком.
В одном варианте этот фильтр можно будет выполнять таким же образом, как описано для блока 111 на фиг. 1 AMR-WB декодера, но порядок фильтра изменятся до 20 при скорости цифрового потока 6,6, что не существенно меняет качество синтезированного сигнала. В другой варианте возможно выполнение синтезирующей фильтрации LPC в частотной области после вычисления частотной характеристики фильтра, реализованного в блоке 710.
В альтернативном варианте осуществления этап фильтрации посредством фильтра 710 линейного предсказания для второго диапазона частот объединяется с применением оптимизированного масштабного коэффициента, что позволяет снизить сложность обработки. Таким образом, этапы фильтрации
Figure 00000050
и применения оптимизированного масштабного коэффициента
Figure 00000232
объединяются в единый этап фильтрации
Figure 00000233
для снижения сложности обработки.
В альтернативных вариантах осуществления настоящего изобретения кодирование нижнего диапазона (0-6,4 кГц) может заменяться кодером CELP, отличающимся от того, что используется в AMR-WB, таким как, например, кодер CELP в G.718 при скорости 8 кбит/с. Без потери общности могли бы применяться другие широкополосные кодеры или кодеры, работающие на частотах выше 16 кГц, в которых кодирование нижнего диапазона производится на внутренней частоте 12,8 кГц. Кроме того, очевидно, что изобретение может быть адаптировано к частотами дискретизации, отличающимся от частоты 12,8 кГц, когда низкочастотный кодер работает с частотой дискретизации ниже, чем у исходного или восстановленного сигнала. Когда при низкочастотном декодировании не используется линейное предсказание, отсутствует сигнал возбуждения для расширения, в этом случае возможно выполнение анализа LPC сигнала, восстановленного в текущем кадре, и возбуждение LPC будет вычисляться таким образом, чтобы была возможность применения изобретения.
В заключение, в другом варианте изобретения возбуждение (
Figure 00000142
) подвергается передискретизации, например, посредством линейной интерполяции или кубического «сплайна», из частоты 12,8 в 16 кГц перед преобразованием (например, DCT-IV) длины 320. Недостатком данного видоизменения является то, что оно является более сложными, поскольку преобразование (DCT-IV) возбуждения вычисляется в дальнейшем по большей длине и передискретизация не выполняется в области преобразования.
Кроме того, в вариантах изобретения все вычисления, необходимые для оценки коэффициентов усиления (
Figure 00000234
,
Figure 00000235
,
Figure 00000236
,
Figure 00000237
,...) могут выполняться в логарифмической области.
В вариантах диапазона расширения возбуждение в нижнем диапазоне
Figure 00000238
и фильтр LPC
Figure 00000239
будут оцениваться в каждом кадре посредством анализа LPC сигнала нижнего диапазона, для которого диапазон должен быть расширен. Затем сигнал возбуждения нижнего диапазона извлекается посредством анализа звукового сигнала.
В возможном варианте осуществления этого варианта звуковой сигнал нижнего диапазона подвергается передискретизации перед этапом извлечения возбуждения таким образом, что возбуждение, извлеченное из звукового сигнала (посредством линейного предсказания) уже подвергнуто передискретизации.
Расширение диапазона, показанное на фиг. 7, применяется в данном случае к нижнему диапазону, который не декодируется, но анализируется.
Фиг. 8 представляет примерный физический вариант осуществления устройства определения оптимизированного масштабного коэффициента 800 в соответствии с изобретением. Последнее может быть неотъемлемой частью декодера сигнала звуковой частоты или единицы оборудования, принимающей сигналы звуковой частоты, декодируемые или нет.
Данный тип устройства содержит процессор PROC, взаимодействующий с блоком памяти BM, содержащим запоминающее и/или оперативное запоминающее устройство MEM.
Такое устройство содержит входной модуль E, подходящий для приема звукового сигнала возбуждения, декодированного или извлеченного в первом диапазоне частот, называемом нижним диапазоном (
Figure 00000238
или
Figure 00000240
), и параметров синтезирующего фильтра линейного предсказания (
Figure 00000241
). Оно содержит модуль S вывода, подходящий для передачи синтезированного и оптимизированного высокочастотного сигнала (uHB'(n)), например, в фильтрующий модуль, как блок 710 на фиг. 7, или в модуль передискретизации, как модуль 311 на фиг. 3.
Блок памяти может преимущественно содержать компьютерную программу, содержащую команды программного кода для реализации этапов способа определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в пределах сущности настоящего изобретения, когда эти команды выполняются процессором PROC, и, в частности, этапы определения (E602) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот, и вычисления (E603) оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Как правило, описание на фиг. 6 повторяет этапы алгоритма такой компьютерной программы. Компьютерная программа также может храниться в системе памяти, которая может считываться считывателем устройства или которая может загружаться в его пространство памяти.
Память MEM хранит, как правило, все данные, необходимые для реализации способа.
В возможном варианте осуществления описанное таким образом устройство также может включать функции для применения оптимизированного масштабного коэффициента в расширенном сигнале возбуждения, расширения диапазона частот, декодирования низкой частоты и других функций обработки, описанных, например, на фигурах 3 и 4 в дополнение к функциям определения оптимизированного масштабного коэффициента в соответствии с изобретением.

Claims (26)

1. Способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона частот сигнала звуковой частоты включает:
- этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания,
- этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и
- этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом способ содержит этапы:
вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит способ сглаживания, являющийся адаптивным во времени.
2. Способ по п. 1, отличающийся тем, что сглаживание является более сильным для меньших значений R.
3. Способ по п. 1 или 2, отличающийся тем, что адаптивное сглаживание представлено в форме:
Rsmoothed=(1-α)Rprecomputed+α. Rprev, где α =1- Rprecomputed ^2,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
4. Способ по п. 1 или 2, отличающийся тем, что набор способов сглаживания дополнительно содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом.
5. Способ по п. 1 или 2, отличающийся тем, что экспоненциальное сглаживание представлено в форме:
Rsmoothed=0,5 Rprecomputed+0,5 Rprev,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
6. Способ по п. 4 или 5, дополнительно содержащий этап определения оптимизированного масштабного коэффициента, и этот этап определения оптимизированного масштабного коэффициента содержит вычисление
max(min(Rsmoothed, Q),P)/P,
где P - частотная характеристика фильтра линейного предсказания по второму диапазону частот, причем второй диапазон частот выше, чем первый диапазон частот, Q - частотная характеристика дополнительного фильтра, полученного усечением полинома фильтра линейного предсказания.
7. Способ по п. 3 или 5, отличающийся тем, что
Figure 00000242
где
Figure 00000243
- порядок декодированного фильтраб
Figure 00000244
соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, коэффициенты
Figure 00000245
.представляют собой коэффициенты полинома фильтра линейного предсказания.
8. Устройство для определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты,
причем устройство для расширения диапазона частот сигнала звуковой частоты содержит: блок декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, блок генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и блок фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом устройство содержит:
процессор для вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
блок сглаживания, выполненный с возможностью сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит способ сглаживания, являющийся адаптивным во времени.
RU2017144519A 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты RU2756434C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1356909A FR3008533A1 (fr) 2013-07-12 2013-07-12 Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
FR1356909 2013-07-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2016104466A Division RU2668058C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Publications (3)

Publication Number Publication Date
RU2017144519A RU2017144519A (ru) 2019-02-15
RU2017144519A3 RU2017144519A3 (ru) 2021-04-19
RU2756434C2 true RU2756434C2 (ru) 2021-09-30

Family

ID=49753286

Family Applications (4)

Application Number Title Priority Date Filing Date
RU2017144519A RU2756434C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144518A RU2751104C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144515A RU2756435C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2016104466A RU2668058C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Family Applications After (3)

Application Number Title Priority Date Filing Date
RU2017144518A RU2751104C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144515A RU2756435C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2016104466A RU2668058C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Country Status (11)

Country Link
US (8) US10446163B2 (ru)
EP (1) EP3020043B1 (ru)
JP (4) JP6487429B2 (ru)
KR (4) KR102315639B1 (ru)
CN (4) CN105378837B (ru)
BR (4) BR122017018553B1 (ru)
CA (4) CA3109028C (ru)
FR (1) FR3008533A1 (ru)
MX (1) MX354394B (ru)
RU (4) RU2756434C2 (ru)
WO (1) WO2015004373A1 (ru)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
TWI684368B (zh) * 2017-10-18 2020-02-01 宏達國際電子股份有限公司 獲取高音質音訊轉換資訊的方法、電子裝置及記錄媒體
TWI809289B (zh) * 2018-01-26 2023-07-21 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
CN110660409A (zh) * 2018-06-29 2020-01-07 华为技术有限公司 一种扩频的方法及装置
JP2022527111A (ja) * 2019-04-03 2022-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ
CN115136236A (zh) * 2020-02-25 2022-09-30 索尼集团公司 信号处理装置、信号处理方法和程序
RU2747368C1 (ru) * 2020-07-13 2021-05-04 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ мониторинга и управления информационной безопасностью подвижной сети связи
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044527A1 (en) * 2002-09-04 2004-03-04 Microsoft Corporation Quantization and inverse quantization for audio
US20080027709A1 (en) * 2006-07-28 2008-01-31 Baumgarte Frank M Determining scale factor values in encoding audio data with AAC
EP1400955B1 (en) * 2002-09-04 2008-12-17 Microsoft Corporation Quantization and inverse quantization for audio signals
US20110125506A1 (en) * 2009-11-26 2011-05-26 Research In Motion Limited Rate-distortion optimization for advanced audio coding
RU2437172C1 (ru) * 2007-11-04 2011-12-20 Квэлкомм Инкорпорейтед Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE502244C2 (sv) * 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
JP3189614B2 (ja) * 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US6002352A (en) * 1997-06-24 1999-12-14 International Business Machines Corporation Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FI119576B (fi) 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
US7451091B2 (en) * 2003-10-07 2008-11-11 Matsushita Electric Industrial Co., Ltd. Method for determining time borders and frequency resolutions for spectral envelope coding
WO2005040749A1 (ja) * 2003-10-23 2005-05-06 Matsushita Electric Industrial Co., Ltd. スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
DE602005025027D1 (de) * 2005-03-30 2011-01-05 Nokia Corp Quellencodierung und/oder -decodierung
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
ATE531037T1 (de) * 2006-02-14 2011-11-15 France Telecom Vorrichtung für wahrnehmungsgewichtung bei der tonkodierung/-dekodierung
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR100905585B1 (ko) * 2007-03-02 2009-07-02 삼성전자주식회사 음성신호의 대역폭 확장 제어 방법 및 장치
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
CA2683983A1 (en) 2009-10-21 2011-04-21 Carbon Solutions Inc. Stabilization and remote recovery of acid gas fractions from sour wellsite gas
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
CN102044250B (zh) * 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
US8455888B2 (en) * 2010-05-20 2013-06-04 Industrial Technology Research Institute Light emitting diode module, and light emitting diode lamp
KR101461774B1 (ko) * 2010-05-25 2014-12-02 노키아 코포레이션 대역폭 확장기
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
PL2791937T3 (pl) * 2011-11-02 2016-11-30 Wytworzenie rozszerzenia pasma wysokiego sygnału dźwiękowego o poszerzonym paśmie
EP2774148B1 (en) * 2011-11-03 2014-12-24 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of audio signals
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
CN102930872A (zh) * 2012-11-05 2013-02-13 深圳广晟信源技术有限公司 用于宽带语音解码中基音增强后处理的方法及装置
JP6096934B2 (ja) * 2013-01-29 2017-03-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
JP2017145792A (ja) 2016-02-19 2017-08-24 株式会社ケーヒン インテークマニホールドにおけるセンサ取付構造
RU2636700C1 (ru) * 2016-03-18 2017-11-27 Акционерное общество "Лаборатория Касперского" Способ устранения уязвимостей устройств, имеющих выход в Интернет
TWI596952B (zh) * 2016-03-21 2017-08-21 固昌通訊股份有限公司 耳道式耳機

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044527A1 (en) * 2002-09-04 2004-03-04 Microsoft Corporation Quantization and inverse quantization for audio
EP1400955B1 (en) * 2002-09-04 2008-12-17 Microsoft Corporation Quantization and inverse quantization for audio signals
US20080027709A1 (en) * 2006-07-28 2008-01-31 Baumgarte Frank M Determining scale factor values in encoding audio data with AAC
RU2437172C1 (ru) * 2007-11-04 2011-12-20 Квэлкомм Инкорпорейтед Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках
US20110125506A1 (en) * 2009-11-26 2011-05-26 Research In Motion Limited Rate-distortion optimization for advanced audio coding

Also Published As

Publication number Publication date
JP2016528539A (ja) 2016-09-15
BR122017018553B1 (pt) 2022-04-19
JP6515157B2 (ja) 2019-05-15
CA3108924A1 (en) 2015-01-15
KR20170103042A (ko) 2017-09-12
CA3109028C (en) 2024-01-30
US10438600B2 (en) 2019-10-08
RU2016104466A (ru) 2017-08-18
BR122017018556B1 (pt) 2022-03-29
RU2017144519A (ru) 2019-02-15
BR122017018557B1 (pt) 2021-08-03
WO2015004373A1 (fr) 2015-01-15
US10943594B2 (en) 2021-03-09
RU2668058C2 (ru) 2018-09-25
RU2017144518A3 (ru) 2021-05-07
CN105378837B (zh) 2019-09-13
US20160203826A1 (en) 2016-07-14
RU2016104466A3 (ru) 2018-05-28
JP6515158B2 (ja) 2019-05-15
US10943593B2 (en) 2021-03-09
US20190385626A1 (en) 2019-12-19
US20190371350A1 (en) 2019-12-05
EP3020043A1 (fr) 2016-05-18
RU2017144518A (ru) 2019-02-15
US20190385625A1 (en) 2019-12-19
CA3108921C (en) 2024-01-30
RU2756435C2 (ru) 2021-09-30
EP3020043B1 (fr) 2017-02-08
KR20170103996A (ko) 2017-09-13
CN107527629A (zh) 2017-12-29
KR20170103995A (ko) 2017-09-13
CN107527629B (zh) 2022-01-04
CA2917795A1 (en) 2015-01-15
CA2917795C (en) 2021-11-30
CN105378837A (zh) 2016-03-02
US10438599B2 (en) 2019-10-08
MX354394B (es) 2018-02-23
KR20160030555A (ko) 2016-03-18
JP2017215618A (ja) 2017-12-07
JP2017215619A (ja) 2017-12-07
KR102315639B1 (ko) 2021-10-21
US20180082699A1 (en) 2018-03-22
US10354664B2 (en) 2019-07-16
JP6487429B2 (ja) 2019-03-20
BR112016000337B1 (pt) 2021-02-23
MX2016000255A (es) 2016-04-28
CN107527628B (zh) 2021-03-30
JP6515147B2 (ja) 2019-05-15
US10783895B2 (en) 2020-09-22
RU2017144515A3 (ru) 2021-04-19
FR3008533A1 (fr) 2015-01-16
KR102423081B1 (ko) 2022-07-21
RU2017144515A (ru) 2019-02-15
RU2751104C2 (ru) 2021-07-08
US20180018982A1 (en) 2018-01-18
CN107527628A (zh) 2017-12-29
RU2017144519A3 (ru) 2021-04-19
US20190378527A1 (en) 2019-12-12
JP2017215601A (ja) 2017-12-07
US20180018983A1 (en) 2018-01-18
CA3109028A1 (en) 2015-01-15
US10446163B2 (en) 2019-10-15
CN107492385A (zh) 2017-12-19
CN107492385B (zh) 2022-02-11
US10672412B2 (en) 2020-06-02
KR102343019B1 (ko) 2021-12-27
CA3108921A1 (en) 2015-01-15
KR102319881B1 (ko) 2021-11-02

Similar Documents

Publication Publication Date Title
RU2756434C2 (ru) Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2763481C2 (ru) Улучшенное расширение диапазона частот в декодере звукового сигнала
JP2016528539A5 (ru)