RU2668058C2 - Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты - Google Patents

Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты Download PDF

Info

Publication number
RU2668058C2
RU2668058C2 RU2016104466A RU2016104466A RU2668058C2 RU 2668058 C2 RU2668058 C2 RU 2668058C2 RU 2016104466 A RU2016104466 A RU 2016104466A RU 2016104466 A RU2016104466 A RU 2016104466A RU 2668058 C2 RU2668058 C2 RU 2668058C2
Authority
RU
Russia
Prior art keywords
frequency
range
filter
scale factor
signal
Prior art date
Application number
RU2016104466A
Other languages
English (en)
Other versions
RU2016104466A3 (ru
RU2016104466A (ru
Inventor
Магдалена КАНЕВСКА
Стефан РАГО
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=49753286&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2668058(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2016104466A publication Critical patent/RU2016104466A/ru
Publication of RU2016104466A3 publication Critical patent/RU2016104466A3/ru
Application granted granted Critical
Publication of RU2668058C2 publication Critical patent/RU2668058C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

Изобретение относится к средствам для расширения диапазона частот при декодировании аудиосигналов. Технический результат заключается в повышении эффективности расширения диапазона частот без дополнительной информации из кодера. Декодируют в первом диапазоне частот сигнал возбуждения и параметры первого диапазона частот, содержащие коэффициенты фильтра линейного предсказания. Генерируют расширенный сигнал возбуждения по меньшей мере на одном втором диапазоне частот. Фильтруют посредством фильтра линейного предсказания для второго диапазона частот. При этом определяют фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот. При этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Вычисляют оптимизированный масштабный коэффициент в зависимости по меньшей мере от коэффициентов дополнительного фильтра. 4 н. и 6 з.п. ф-лы, 10 ил.

Description

Настоящее изобретение относится к области кодирования/декодирования и обработки сигналов звуковой частоты (например, речи, музыки или других подобных сигналов) для их передачи или их хранения.
Более конкретно, изобретение относится к способу и устройству для определения оптимизированного масштабного коэффициента, который может использоваться для регулировки уровня сигнала возбуждения или, эквивалентным образом, фильтра в качестве компонента расширения диапазона частот в декодере или улучшения сигналов звуковой частоты посредством процессора.
Существуют многочисленные методы сжатия (с потерей) сигнала звуковой частоты, такого как речь или музыка.
Традиционные способы кодирования для разговорных приложений, как правило, делятся на кодирование формы сигнала (РСМ «кодово-импульсная модуляция», ADCPM «адаптивная дифференциальная кодово-импульсная модуляция», кодирование с преобразованием и т.д.), параметрическое кодирование (LPC «кодирование с линейным предсказанием», синусоидальное кодирование и т.д.) и параметрическое гибридное кодирование с квантованием параметров посредством «анализа через синтез», самым известным примером которого является кодирование CELP («линейное предсказание с кодовым возбуждением»).
Для неразговорных приложений в уровень техники для кодирования (монофонического) звукового сигнала входит перцептуальное кодирование с преобразованием или в поддиапазонах с параметрическим кодированием высоких частот посредством репликации диапазона.
Обзор способов кодирования обычной речи и звука можно найти в работах W.B. Kleijn and K.K. Paliwal (eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008.
Внимание в данных работах сосредоточено, в частности, на 3GPP стандартизированном AMR-WB («адаптивном многоскоростном широкополосном») кодеке (кодере и декодере), который работает на входной/выходной частоте 16 кГц, и в котором сигнал разделяется на два поддиапазона, нижний диапазон (0-6,4 кГц), который дискретизируется с частотой 12,8 кГц и кодируется посредством CELP модели, и верхний диапазон (6,4-7 кГц), который параметрически восстанавливается посредством «расширения диапазона» (или BWE «расширения полосы пропускания») с или без дополнительной информации в зависимости от режима текущего кадра. Можно отметить, что ограничение кодированного диапазона кодека AMR-WB на частоте 7 кГц, по существу, связано с тем, что частотная характеристика при передаче широкополосных терминалов была аппроксимирована в момент стандартизации (ETSI/3GPP, в дальнейшем ITU-T) в соответствии с частотной маской, определенной в стандарте ITU-T Р.341 и, более конкретно посредством так называемого фильтра «Р341», определенного в стандарте ITU-Т G.191, который отсекает частоты выше 7 кГц (данный фильтр соблюдает маску, определенную в Р.341). Тем не менее, в теории хорошо известно, что сигнал, подвергнутый дискретизации с частотой 16 кГц, может иметь определенный звуковой диапазон от 0 до 8000 Гц; поэтому AMR-WB-кодек вводит ограничение верхнего диапазона по сравнению с теоретической полосой пропускания 8 кГц.
3GPP AMR-WB речевой кодек был стандартизирован в 2001 году, главным образом, для режима с коммутацией каналов (CS) телефонных приложений на GSM (2G) и UMTS (3G). Этот же кодек также был стандартизирован в 2003 году в стандарте ITU-T в виде рекомендации G.722.2 «Широкополосное кодирование речи при приблизительно 16 кбит/с с применением адаптивного многоскоростного широкополосного кодирования (AMR-WB)».
Он имеет девять скоростей цифрового потока, называемых режимами, от 6,6 до 23,85 кбит/с, и содержит механизмы непрерывной передачи (DTX «прерывистой передачи») с определением присутствия голосового сигнала (VAD) и генерацией комфортного шума (CNG) из кадров описания периода молчания (SID «дескриптор информации о паузе») и механизмы коррекции потерянных кадров (FEC «маскирование стирания кадров», иногда называемое PLC «маскирование потери пакетов»).
Подробная информация о AMR-WB кодировании и алгоритме декодирования не повторяется в данной заявке; подробное описание этого кодека можно найти в спецификациях 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) и в ITU-T-G.722.2 (и соответствующих дополнениях и приложениях), и в статье В. Bessette и другие, озаглавленной «The adaptive multirate wideband speech codec (AMR-WB)", IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636, и исходном коде связанных стандартов 3GPP и ITU-T.
Принцип расширения диапазона в кодеке AMR-WB довольно слабо развит. Действительно, верхний диапазон (6,4-7 кГц) генерируется посредством формирования белого шума во времени (применяемого при формировании коэффициентов усиления на подкадр) и частотной огибающей (посредством применения синтезирующего фильтра линейного предсказания или LPC «кодирование с линейным предсказанием»). Данный метод расширения диапазона показан на фиг. 1.
Белый шум uHB1(n), n=0, …, 79 генерируется на частоте 16 кГц для каждого подкадра длительностью 5 мс посредством линейного конгруэнтного генератора (блок 100). Этот шум uHB1(n) формируется во времени посредством применения коэффициентов усиления для каждого подкадра; эта операция разбивается на два этапа обработки (блоки 102,106 или 109):
- Вычисляют (блок 101) первый коэффициент, чтобы установить белый шум uHB1(n) (блок 102) на том же уровне, что и возбуждение u(n), n=0, …, 63, декодированное на частоте 12,8 кГц в нижнем диапазоне:
Figure 00000001
Можно отметить, что нормализация энергий выполняется путем сравнения блоков разного размера (64 для u(n) и 80 для uHB1(n)) без компенсации отличий в частотах дискретизации (12,8 или 16 кГц).
- Затем получают возбуждение в верхнем диапазоне (блок 106 или 109) в виде:
Figure 00000002
где коэффициент усиления
Figure 00000003
получают по-разному в зависимости от скорости цифрового потока. Если скорость цифрового потока текущего кадра <23,85 кбит/с, коэффициент усиления
Figure 00000003
B оценивают «вслепую» (то есть без дополнительной информации); в этом случае блок 103 фильтрует сигнал, декодированный в нижнем диапазоне, посредством фильтра высоких частот с частотой среза 400 Гц для получения сигнала
Figure 00000004
, n=0, …, 63 - данный фильтр высоких частот устраняет влияние очень низких частот, которые могут исказить оценку, выполненную в блоке 104 - затем «наклон» (индикатор крутизны спектра), обозначенный etilt сигнала
Figure 00000005
вычисляют с помощью нормированной автокорреляции (блок 104):
Figure 00000006
и, наконец,
Figure 00000007
вычисляют в виде:
Figure 00000008
где gSP=1-etilt - коэффициент усиления, применяемый в активных речевых (SP) кадрах, gBG=1.25gSP - коэффициент усиления, применяемый в неактивных речевых кадрах, относящихся к фоновому (BG) шуму, и wSP - весовая функция, которая зависит от определения присутствия голосового сигнала (VAD). Понятно, что оценка наклона (etilt) позволяет адаптировать уровень верхнего диапазона в зависимости от спектрального характера сигнала; эта оценка особенно важна, когда крутизна спектра CELP декодированного сигнала такой, что средняя энергия уменьшается, когда частота увеличивается (в случае вокализованного сигнала, где etilt близка к 1, поэтому gSP=1-etilt соответственно снижается). Следует также отметить, что коэффициент
Figure 00000007
в AMR-WB декодировании ограничивается для приема значений в диапазоне [0,1; 1,0]. Более того, для сигналов, энергия которых увеличивается при увеличении частоты (etilt близко к -1, близко к 2), коэффициент усиления
Figure 00000007
обычно занижается.
При скорости 23,85 кбит/с корректирующее информационное сообщение передается на AMR-WB кодер и декодируется (блоки 107, 108) с целью уточнения коэффициента усиления, оцененного для каждого подкадра (4 бита каждые 5 мс или 0,8 кбит/с). Затем искусственное возбуждение uHB(n) фильтруется (блок 111) посредством LPC синтезирующего фильтра (блок 111) передаточной функции 1/AHB(z) и работает на частоте дискретизации 16 кГц. Структура данного фильтра зависит от скорости передачи текущего кадра:
- При скорости 6,6 кбит/с фильтр 1/AHB(z) получают путем взвешивания посредством коэффициента γ=0,9 фильтра LPC 20-го порядка
Figure 00000009
, который «экстраполирует» фильтр LPC 16-го порядка
Figure 00000010
, декодированный в нижнем диапазоне (12,8 кГц) - подробности экстраполяции параметров области ISF (спектральной частоты иммитанса) описываются в стандарте G.722.2 в разделе 6.3.2.1; в этом случае,
Figure 00000011
- при скорости цифрового потока >6.6 кбит/с фильтр 1/AHB(z) имеет 16-й порядок и фактически соответствует:
Figure 00000012
где γ=0,6. Следует отметить, что в этом случае фильтр
Figure 00000013
используется на частоте 16 кГц, что приводит к расширению (посредством пропорционального преобразования) частотной характеристики этого фильтра от [0; 6,4 кГц] до [0; 8 кГц].
В заключение, результат sHB(n) обрабатывается посредством полосового фильтра (блок 112) типа FIR («конечной импульсной характеристики»), чтобы сохранить только диапазон 6-7 кГц; при скорости 23,85 кбит/с низкочастотный фильтр также типа FIR (блок 113) добавляется к обработке для дополнительного подавления частот выше 7 кГц. В заключение, высокочастотный (HF) синтез добавляется (блок 130) к низкочастотному (LF) синтезу, полученному с помощью блоков 120-122 и подвергнутом повторной дискретизации с частотой 16 кГц (блок 123). Таким образом, даже если верхний диапазон расширяется в теории от 6,4 до 7 кГц в кодеке AMR-WB, HF синтез скорее содержится в полосе 6-7 кГц перед суммированием с LF синтезом.
В методе расширения диапазона кодека AMR-WB может быть выявлен ряд недостатков, в частности:
- оценка коэффициентов усиления для каждого подкадра (блок 101, 103-105) не является оптимальной. Отчасти она основывается на выравнивании «абсолютной» энергии в расчете на один подкадр (блок 101) между сигналами на различных частотах: искусственным возбуждением на частоте 16 кГц (белый шум) и сигналом на частоте 12,8 кГц (декодированное возбуждение ACELP). Можно отметить, в частности, что этот подход неявно вызывает подавление возбуждения верхнего диапазона (в соотношении 12,8/16=0,8); фактически, это также будет отмечено, что восстановление предыскаженного сигнала не выполняется в верхнем диапазоне в кодеке AMR-WB, который неявно вызывает усиление относительно близкое к 0,6 (что соответствует значению частотной характеристики 1/(1-0.68z-1) при частоте 6400 Гц). В действительности, коэффициенты 1/0,8 и 0,6 компенсируются приблизительно.
- Что касается речи, 3GPP характеристические тесты кодека AMR-WB, задокументированные в 3GPP отчете TR 26.976, показали, что режим при скорости 23,85 кбит/с имеет менее хорошее качество, чем при скорости 23,05 кбит/с, его качество в действительности подобно режиму при скорости 15,85 кбит/с. Это показывает, в частности, что уровень искусственного HF сигнала необходимо контролировать очень аккуратно, так как качество ухудшается при скорости 23,85 кбит/с, при этом считается, что 4 бита на кадр наилучшим образом обеспечивают возможность аппроксимации энергии исходных высоких частот.
- Фильтр низких частот на частоте 7 кГц (блок 113) вводит сдвиг почти 1 мс между нижним и верхним диапазонами, которые могут потенциально ухудшить качество определенных сигналов посредством незначительной десинхронизации двух диапазонов при скорости 23,85 кбит/с - данная десинхронизация может также приводить к проблемам при переключении скорости цифрового потока со скорости 23,85 кбит/с на другие режимы.
Пример расширения диапазона с помощью временного подхода описывается в 3GPP стандарте TS 26.290, описывающем кодек AMR-WB+ (стандартизованный в 2005 году). Данный пример показан на структурной схеме фиг. 2а (общая структурная схема) и 2b (предсказание коэффициента усиления по реакции коррекции уровня), которые соответствуют соответственно фиг. 16 и 10 3GPP спецификации TS 26.290.
В кодеке AMR-WB+ (монофонический) входной сигнал, подвергнутый дискретизации на частоте Fs (в Гц), делится на два отдельных частотных диапазона, в которых два фильтра LPC вычисляются и кодируются по отдельности:
- один фильтр LPC, обозначенный A(z), в нижем диапазоне (0-Fs/4) - его квантованная версия обозначается
Figure 00000014
- другой фильтр LPC, обозначенный AHF(z), в спектрально смешанном верхнем диапазоне (Fs/4-Fs/2) - его квантованная версия обозначается
Figure 00000015
Расширение диапазона выполняется в кодеке AMR-WB+, как подробно описано в разделах 5.4 (HF кодирование) и 6.2 (HF декодирование) 3GPP спецификации TS 26.290. Его принцип кратко изложен здесь: расширение заключается в использовании возбуждения, декодированного на низких частотах (возбужд. LFC) и в формировании данного возбуждения посредством временного коэффициента усиления в расчете на подкадр (блок 205) и синтезирующей фильтрации LPC (блок 207); кроме того реализуются операции обработки для увеличения (пост-обработки) возбуждения (блок 206) и сглаживания энергии восстановленного сигнала HF (блок 208), как показано на фиг. 2а.
Важно отметить, что данное расширение в AMR-WB+ требует передачи дополнительной информации: коэффициентов фильтра
Figure 00000016
в 204 и временного формирующего усиления на подкадр (блок 201). Один конкретный признак алгоритма расширения диапазона в AMR-WB+ состоит в том, что коэффициент усиления на каждый подкадр определяется посредством прогнозирующего подхода; другими словами, коэффициенты усиления не кодируются непосредственно, а кодируются коррекции усиления, которые относятся к оценке коэффициента усиления, обозначенного gmatch. Эта оценка, gmatch, фактически соответствует коэффициенту выравнивания уровня между фильтрами
Figure 00000017
и
Figure 00000018
на частоте разделения между нижним диапазоном и верхним диапазоном (Fs/4). Вычисление коэффициента gmatch (блок 203) подробно описано на фиг. 10 3GPP спецификации TS 26.290, воспроизведенной в данной заявке на фиг. 2b. Эта фигура не будет дополнительно подробно описываться в данной заявке. Просто следует отметить, что блоки 210-213 используются для вычисления энергии импульсной характеристики
Figure 00000019
, в то же время напоминая, что фильтр
Figure 00000020
моделирует спектрально смешанный верхний диапазон (из-за спектральных свойств разделения нижнего и верхнего диапазонов банка фильтров). Поскольку фильтры интерполируются по подкадрам, коэффициент усиления gmatch вычисляется только один раз за кадр, и он интерполируется по подкадрам.
Метод кодирования коэффициента усиления расширения диапазона в AMR-WB+, и, в частности, компенсация уровней фильтров LPC при их соединении является подходящим способом в контексте расширения диапазона посредством моделей LPC в нижнем и верхнем диапазоне, и можно отметить, что такая компенсация уровня между фильтрами LPC отсутствует в расширении диапазона кодека AMR-WB. Тем не менее, на практике можно проверить, что непосредственное выравнивание уровня между двумя фильтрами LPC на частоте разделения не является оптимальным способом и может вызвать завышенную оценку энергии в верхнем диапазоне и в некоторых случаях слышимые искажения; следует помнить, что фильтр LPC представляет собой спектральную огибающую, и принцип выравнивания уровня между двумя фильтрами LPC для данной частоты сводится к регулировке относительного уровня двух огибающих LPC. Тогда, такое выравнивание, выполняемое при частоте, погрешность которой не превышает эталонно допустимую, не обеспечивает полную непрерывность и общую согласованность энергии (по частоте) в области точки выравнивания, когда частотная огибающая сигнала значительно колеблется в данной области. Математический способ установления проблемы состоит в обнаружении того, что может обеспечиваться непрерывность между двумя кривыми, что приводит к их пересечению в одной и той же точке, но ничто не гарантирует того, что локальные свойства (последовательные производные) совпадают так, чтобы обеспечить более глобальную совместимость. Риск в обеспечении места непрерывности между огибающими LPC нижнего и верхнего диапазонов включает установку огибающей LPC в верхнем диапазоне на относительный уровень, который является слишком сильным или слишком слабым, причем случай слишком сильного уровня является более опасным, потому что он приводит к более раздражающим искажениям.
Кроме того, компенсация усиления в AMR-WB+ является первичным предсказанием коэффициента усиления, известного для кодера и декодера, и который предназначен для уменьшения скорости цифрового потока, необходимой для передачи информации усиления, масштабирующей сигнал возбуждения в верхнем диапазоне. Тогда, в контексте функционально совместимого улучшения кодирования/декодирования AMR-WB, нельзя изменить существующее кодирование коэффициентов усиления в отношении подкадров (0,8 кбит/с) расширения диапазона в режиме AMR-WB при скорости 23,85 кбит/с. Кроме того, для скоростей цифрового потока строго меньше 23,85 кбит/с, компенсация уровней фильтров LPC в нижнем и верхнем диапазонах может применяться в расширении диапазона декодирования, совместимого с AMR-WB, но опыт показывает, что данный единственный метод, получаемый из AMR-WB+кодирования, применяемого без оптимизации, может создавать проблемы завышения оценки энергии верхнего диапазона (>6 кГц).
Следовательно, существует потребность в улучшении компенсации коэффициентов усиления между фильтрами линейного предсказания различных диапазонов частот для расширения диапазона частот в кодеке типа AMR-WB или функционально совместимой версии этого кодека без какой-либо завышенной оценки энергии в диапазоне частот и без необходимости дополнительной информации из кодера.
Настоящее изобретение улучшает ситуацию.
В связи с этим, целью изобретения является способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Способ определения включает следующие этапы:
- определение фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- вычисление оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Таким образом, использование дополнительного фильтра более низкого порядка, чем фильтр первого диапазона частот, для выравнивания позволяет избежать завышения оценки энергии на высоких частотах, которые могут возникнуть в результате локальных колебаний огибающей, и которые могут нарушить выравнивание фильтров предсказания.
Таким образом, улучшается выравнивание коэффициентов усиления между фильтрами линейного предсказания первого и второго диапазонов частот.
В преимущественном применении надлежащим образом полученного оптимизированного масштабирующего коэффициента способ расширения диапазона включает этап применения оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.
В соответствующем варианте осуществления применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.
Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяют в один этап фильтрации для уменьшения сложности обработки.
В конкретном варианте осуществления коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.
Поэтому данный дополнительный фильтр более низкого порядка получают простым способом.
Кроме того, для получения устойчивого фильтра коэффициенты дополнительного фильтра изменяются в зависимости от критерия устойчивости дополнительного фильтра.
В конкретном варианте осуществления вычисление оптимизированного масштабного коэффициента включает следующие этапы:
- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;
- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;
- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.
Таким образом, оптимизированный масштабный коэффициент вычисляется таким образом, чтобы избежать раздражающих искажений, которые могут возникнуть в случае, если частотная характеристика фильтра более высокого порядка первого диапазона вблизи от общей частоты демонстрирует пик сигнала или точку минимума.
В конкретном варианте осуществления способ дополнительно включает следующие этапы, реализуемые на предопределенной скорости цифрового потока декодирования:
- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисленного в расчете на подкадр в зависимости от отношения энергии декодированного сигнала возбуждения и расширенного сигнала возбуждения;
- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;
- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.
Таким образом, дополнительная информация может использоваться для повышения качества расширенного сигнала для предопределенного режима работы.
Целью настоящего изобретения также является устройство для определения оптимизированного масштабного коэффициента, применяемого к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, причем устройство расширения диапазона содержит модуль для декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, модуль для генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль для фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Устройство определения содержит:
- модуль определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- модуль вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Целью настоящего изобретения является декодер, содержащий описанное устройство.
Целью настоящего изобретения является компьютерная программа, содержащая команды программного кода для реализации этапов описанного способа определения оптимизированного масштабного коэффициента при выполнении этих команд процессором.
Наконец, настоящее изобретение относится к носителю данных, который может считываться процессором, встроенным или нет в устройство определения оптимизированного масштабного коэффициента, по возможности съемному, хранящему компьютерную программу, реализующую способ определения оптимизированного масштабного коэффициента, как описано выше.
Другие признаки и преимущества настоящего изобретения станут более очевидными из нижеследующего описания, приведенного только в качестве неограничивающего примера и со ссылкой на прилагаемые графические материалы, на которых:
- на фиг. 1 изображена часть декодера типа AMR-WB, реализующего этапы расширения диапазона частот согласно уровню техники и как описано ранее;
- на фиг. 2а и 2b представлено кодирование верхнего диапазона в кодеке AMR-WB+ в соответствии с уровнем техники и как описано ранее;
- на фиг. 3 изображен декодер, который может взаимодействовать с кодированием AMR-WB, включающий устройство расширения диапазона, применяемое в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 4 изображено устройство определения масштабного коэффициента, оптимизированного посредством подкадра в зависимости от скорости цифрового потока, в соответствии с одним вариантом осуществления настоящего изобретения; и
- на фиг. 5а и 5b изображены частотные характеристики фильтров, применяемых для вычисления оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 6 изображены в форме блок-схемы основные этапы способа определения оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 7 изображен один вариант осуществления в частотной области устройства определения оптимизированного масштабного коэффициента в рамках расширения диапазона;
- на фиг. 8 изображена аппаратная реализация устройства определения оптимизированного масштабного коэффициента для расширения диапазона в соответствии с настоящим изобретением.
На фиг. 3 изображен примерный декодер, совместимый со стандартом AMR-WB/G.722.2, в котором присутствует расширение диапазона, включающее определение оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления способа согласно настоящему изобретению, реализованный посредством устройства расширения диапазона, показанного в виде блока 309.
В отличие от декодирования AMR-WB, которое работает с выходной частотой дискретизации 16 кГц, в данном случае рассматривается декодер, который может работать с выходным сигналом (синтеза) на частоте ƒs=8, 16, 32 или 48 кГц. Следует отметить, что в данном случае предполагается, что кодирование выполнено в соответствии с алгоритмом AMR-WB с внутренней частотой 12,8 кГц для кодирования CELP в нижнем диапазоне и кодировании посредством коэффициента усиления при скорости 23,85 кбит/с на подкадр на частоте 16 кГц; несмотря на то, что изобретение описывается здесь на уровне декодирования, при этом предполагается, что кодирование может также работать с входным сигналом на частоте ƒs=8, 16, 32 или 48 кГц, и подходящие операции передискретизации вне контекста настоящего изобретения применяются в кодировании в зависимости от величины ƒs. Следует отметить, что, когда ƒs=8 кГц, в случае декодирования, совместимого с AMR-WB, нет необходимости расширять нижний диапазон 0-6,4 кГц, потому что диапазон звуковых частот, восстановленный на частоте ƒs, ограничивается диапазоном 0-4000 Гц.
На фиг. 3 декодирование CELP (LF для низких частот) по-прежнему работает на внутренней частоте 12,8 кГц, как в AMR-WB, и расширение диапазона (HF для высоких частот), применяемое для изобретения, работает на частоте 16 кГц, и LF и HF синтезы объединяются (блок 312) на частоте ƒs после соответствующей передискретизации (блок 306 и внутренней обработки в блоке 311). В альтернативных вариантах осуществления объедение нижнего и верхнего диапазонов может выполняться на частоте 16 кГц после передискретизации нижнего диапазона от 12,8 до 16 кГц, перед передискретизацией объединенного сигнала на частоте ƒs.
Декодирование в соответствии с фиг. 3 зависит от режима AMR-WB (или скорости цифрового потока), связанного с текущим принятым кадром. В качестве индикатора, и без воздействия на блок 309, декодирование части CELP в нижнем диапазоне включает следующие этапы:
- демультиплексирование кодированных параметров (блок 300) в случае правильно принятого кадра (bfi=0, где bfi - «признак поврежденного кадра» со значением 0 для принятого кадра и 1 для потерянного кадра);
- декодирование параметров ISF с интерполяцией и преобразованием в коэффициенты LPC (блок 301), как описано в пункте 6.1 стандарта G.722.2;
- декодирование возбуждения CELP (блок 302) с адаптивной и фиксированной частью для восстановления возбуждения (exc или u'(n)) в каждом подкадре длиной 64 на частоте 12,8 кГц:
Figure 00000021
, n=0, …, 63
в соответствии с обозначениями пункта 7.1.2.1 Рекомендации ITU-T G.718 декодера, функционально совместимого с AMR-WB кодером/декодером, в отношении декодирования CELP, где ν(n) и c(n) - соответственно кодовые слова адаптивного и фиксированного словарей, и
Figure 00000022
и
Figure 00000023
- связанные декодированные коэффициенты усиления. Данное возбуждение u'(n) применяется в адаптивном словаре следующего подкадра; затем оно подвергается пост-обработке и, как и в G.718, возбуждение u'(n) (также обозначаемое exc) отличается от его модифицированной подвергнутой пост-обработке версии u(n) (также обозначаемой ехс2), которая служит в качестве входного сигнала для синтезирующего фильтра
Figure 00000024
в блоке 303;
- синтезирующую фильтрацию
Figure 00000024
(блок 303), где декодированный фильтр LPC
Figure 00000025
имеет 16-й порядок;
- узкополосную пост-обработку (блок 304) в соответствии с пунктом 7.3 G.718, если ƒs=8 кГц;
- компенсацию предыскажений (блок 305) посредством фильтра 1/(1-0.68z-1);
- пост-обработку низких частот (называемую «постфильтром низкой звуковой частоты») (блок 306), подавляющую перекрестные гармонические помехи на низких частотах, как описано в пункте 7.14.1.1 в G.718. Данная обработка вводит задержку, которая учитывается при декодировании верхнего диапазона (>6,4 кГц);
- передискретизацию внутренней частоты 12,8 кГц на выходной частоте fs (блок 307). Возможен ряд вариантов осуществления. Без потери общности, здесь рассматривается, в качестве примера, что если ƒs=8 или 16 кГц, то передискретизация, описанная в пункте 7.6 в G.718 повторяется здесь, а если, ƒs=32 или 48 кГц, то применяются дополнительные фильтры с конечной импульсной характеристикой (FIR);
- вычисление параметров «порогового шумоподавителя» (блок 308), преимущественно проводимое, как описано в пункте 7.14.3 в G.718, чтобы «повысить» качество периодов паузы посредством снижения уровня.
В вариантах, которые могут реализовываться для изобретения, операции пост-обработки, применяемые к возбуждению могут изменяться (например, дисперсия фазы может увеличиваться) или данные операции пост-обработки могут быть расширены (например, может реализовываться снижение перекрестных гармонических помех), не влияя на характер расширения диапазона.
Следует отметить, что использование блоков 306, 308, 314 не является обязательным.
Кроме того, следует отметить, что декодирование нижнего диапазона, описанное выше, предполагает так называемый «активный» текущий кадр со скоростью цифрового потока от 6,6 до 23,85 кбит/с. Фактически, когда режим DTX активируется, определенные кадры могут кодироваться как «неактивные», и в этом случае можно либо передать дескриптор паузы (по 35 бит), либо не передавать ничего. В частности, следует напомнить, что кадр SID описывает ряд параметров: параметры ISF, усредненные по 8 кадрам, среднюю энергию по 8 кадрам, флаг «сглаживания» для восстановления нестационарного шума. Во всех случаях в декодере используется такая же модель декодирования, как и для активного кадра, с восстановлением возбуждения и фильтра LPC для текущего кадра, что дает возможность применять расширение диапазона даже к неактивным кадрам. То же самое замечание относится к декодированию «потерянных кадров» (или FEC, PLC), в которых применяется LPC модель.
В варианте осуществления, описанном здесь, и со ссылкой на фиг. 7, декодер дает возможность расширить декодированный нижний диапазон (50-6400 Гц, учитывающий 50 Гц высокочастотной фильтрации в декодере, 0-6400 Гц в общем случае) до расширенного диапазона, ширина которого изменяется в диапазоне приблизительно от 50-6900 Гц до 50-7700 Гц в зависимости от режима, реализованного в текущем кадре. Таким образом, его можно отнести к первому диапазону частот от 0 до 6400 Гц и второй диапазон частот от 6400 до 8000 Гц. В действительности, в предпочтительном варианте осуществления расширение возбуждения выполняется в частотной области в диапазоне от 5000 до 8000 Гц, чтобы обеспечить возможность полосовой фильтрации с шириной от 6000 до 6900 или 7700 Гц.
При скорости 23,85 кбит/с корректирующая информация HF усиления (0,8 кбит/с), передаваемая при 23,85 кбит/с, здесь декодируется. Ее использование подробно описано ниже со ссылкой на фиг. 4. Синтезирующую часть верхнего диапазона получают в блоке 309, представляющем устройство расширения диапазона, используемое для изобретения, и которое подробно изображено на фиг. 7 в варианте осуществления.
В целях совмещения декодированных нижних и верхних диапазонов, вводится задержка (блок 310) для синхронизации выходных сигналов блоков 306 и 307, и верхний диапазон, синтезируемый на частоте 16 кГц, подвергается передискретизации из 16 кГц в частоту ƒs (выходной сигнал блока 311). Значение задержки Т зависит от того, как синтезируется сигнал верхнего диапазона, и от частоты ƒs как в пост-обработке низких частот. Таким образом, в целом, значение Т в блоке 310 должно регулироваться в соответствии с конкретной реализацией.
Затем нижние и верхние диапазоны объединяются (складываются) в блоке 312 и полученный синтез подвергается пост-обработке посредством высокочастотной фильтрации (типа IIR) 50 Гц порядка 2, коэффициенты которой зависят от частоты fs (блок 313) и выходной пост-обработки с необязательным применением «порогового шумоподавителя» способом, подобным G.718 (блок 314).
На фиг. 3 описывается один вариант осуществления устройства определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения в процессе расширения диапазона частот. Данное устройство входит в блок 309 расширения диапазона, описанный выше.
Таким образом, в блоке 400 из сигнала возбуждения, декодированного в первом диапазоне частот u(n), выполняется расширение диапазона для получения расширенного сигнала возбуждения uHB(n) по меньшей мере одного второго диапазона частот.
Следует отметить, что в данном случае оценка оптимизированного масштабного коэффициента в соответствии с изобретением не зависит от того, как получен сигнал uHB(n). Одно условие относительно его энергии все-таки является важным. Действительно, энергия верхнего диапазона от 6000 до 8000 Гц должна быть на уровне, подобном энергии диапазона от 4000 до 6000 Гц декодированного сигнала возбуждения на выходе блока 302. Кроме того, поскольку в сигнале нижнего диапазона компенсируются предыскажения (блок 305), компенсация предыскажений должна также применяться к сигналу возбуждения верхнего диапазона либо посредством специального фильтра компенсации предыскажений, либо посредством умножения на постоянный коэффициент, который соответствует среднему коэффициенту подавления упомянутого фильтра. Это условие не распространяется на случай скорости цифрового потока 23,85 кбит/сек, при которой используется дополнительная информация, передаваемая кодером. В этом случае энергия сигнала верхнего диапазона возбуждения должна согласовываться с энергией сигнала, соответствующего кодеру, как описано ниже.
Расширение диапазона частот может, например, реализовываться таким же образом, как для декодера типа AMR-WB, описанного со ссылкой на фиг. 1, в блоках 100-102 из белого шума.
В другом варианте осуществления это расширение диапазона может выполняться из объединения белого шума и декодированного сигнала возбуждения, как показано и описано ниже для блоков 700-707 на фиг. 7.
Конечно для блока 400 могут предусматриваться и другие способы расширения диапазона частот при сохранении уровня энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, как описано ниже.
Кроме того, модуль расширения диапазона может быть также зависимым от декодера и может выполнять расширение диапазона для существующего звукового сигнала, хранящегося или передающегося на модуль расширения с анализом звукового сигнала, чтобы извлечь из него возбуждение и фильтр LPC. В этом случае, сигнал возбуждения на входе в модуль расширения больше не является декодированным сигналом, а является сигналом, извлеченным после анализа, подобно коэффициентам фильтра линейного предсказания первого диапазона частот, используемым в способе определения оптимизированного масштабного коэффициента в реализации настоящего изобретения.
В примере, показанном на фиг. 4, первым рассматривается случай скоростей цифрового потока <23,85 кбит/с, для которых определение оптимизированного масштабного коэффициента ограничивается блоком 401.
В этом случае вычисляется оптимизированный масштабный коэффициент, обозначаемый gHB2(m). В одном варианте осуществления данное вычисление выполняется преимущественно для каждого подкадра и заключается в выравнивании уровней частотных характеристик фильтров LPC
Figure 00000026
и
Figure 00000027
, применяемых для низких и высоких частот, как описано ниже со ссылкой на фиг. 7, с дополнительными мерами предосторожности, чтобы избежать случаев завышения оценки, которые могут привести к чрезмерной энергии синтезированного верхнего диапазона и, следовательно, генерировать слышимые искажения.
В альтернативном варианте осуществления можно будет оставить экстраполированный HF синтезирующий фильтр
Figure 00000028
, как это реализовано в декодере AMR-WB или декодере, который может взаимодействовать с кодером/декодером AMR-WB, например, в соответствии с Рекомендацией ITU-T G.718, вместо фильтра
Figure 00000027
. Затем согласно изобретению выполняется компенсация посредством фильтров
Figure 00000026
и
Figure 00000028
.
Определение оптимизированного масштабного коэффициента также выполняется посредством определения (в блоке 401а) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания в первом диапазоне частот
Figure 00000026
, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Затем вычисляется (в 401b) оптимизированный масштабный коэффициент в зависимости по меньшей мере от этих коэффициентов для применения к расширенному сигналу возбуждения uHB(n).
Принцип определения оптимизированного масштабного коэффициента, реализованный в блоке 401, показан на фиг. 5а и 5b на конкретных примерах, полученных из сигналов, подвергнутых дискретизации на частоте 16 кГц; амплитудные значения частотных характеристик 3 фильтров, обозначенные ниже, как R, Р, Q, вычисляются на общей частоте 6000 Гц (вертикальная пунктирная линия) в текущем подкадре, индекс m которых не упоминается здесь в обозначениях фильтров LPC, интерполированных по подкадру, для упрощения текста. Значение 6000 Гц выбирается потому, что оно близко к частоте Найквиста в нижнем диапазоне, то есть 6400 Гц. Предпочтительно не принимать данную частоту Найквиста для определения оптимизированного масштабного коэффициента. Действительно, энергия декодированного сигнала в области низких частот, как правило, уже подавляется на частоте 6400 Гц. Кроме того, расширение диапазона, описанное здесь, выполняется во втором диапазоне частот, называемым верхним диапазоном, который находится в пределах от 6000 до 8000 Гц. Следует отметить, что в вариантах осуществления настоящего изобретения может быть выбрана частота, отличная от 6000 Гц, без потери общности для определения оптимизированного масштабного коэффициента. Также можно будет рассмотреть случай, когда два фильтра LPC определяются для отдельных диапазонов (как в AMR-WB+). В этом случае, R, Р и Q будут вычисляться на частоте разделения.
На фиг. 5а и 5b изображено, как определяются величины R, Р, Q.
Первый этап состоит в вычислении частотных характеристик R и Р соответственно фильтра линейного предсказания первого диапазона частот (нижнего диапазона) и второго диапазона частот (верхнего диапазона) на частоте 6000 Гц. Сначала вычисляется следующее:
Figure 00000029
где М=16 - порядок декодированного фильтра LPC,
Figure 00000026
, и θ соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, а именно:
Figure 00000030
.
Затем, подобным образом, вычисляется следующее:
Figure 00000031
где
Figure 00000032
.
В предпочтительном варианте осуществления величины Р и R вычисляются по следующему псевдокоду:
px=py=0
rx=ry=0
for i=0 to 16
рх=рх+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33-i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33-i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ty)
где
Figure 00000033
соответствует коэффициентам
Figure 00000034
(16-го порядка),
Figure 00000035
соответствует коэффициенту
Figure 00000036
, sqrt() соответствует операции извлечения квадратного корня и таблицы exp_tab_p и exp_tab_q размером 34 содержат реальные и мнимые части комплексных экспонент, связанных с частотой 6000 Гц, с
Figure 00000037
Figure 00000038
Дополнительный фильтр предсказания получают, например, соответствующим усечением полинома
Figure 00000034
до 2-го порядка.
Фактически, непосредственное усечение порядка приводит к получению фильтра
Figure 00000039
, который может представлять собой проблему, потому что в основном ничто не может гарантировать, что этот фильтр 2-го порядка является устойчивым. Вследствие этого, в предпочтительном варианте осуществления выявляется устойчивость фильтра
Figure 00000040
, и применяется фильтр
Figure 00000041
, коэффициенты которого выводят из
Figure 00000039
в зависимости от обнаружения неустойчивости. Более конкретно, задается следующее:
Figure 00000042
Устойчивость фильтра
Figure 00000039
может быть проверена по-разному; в данном случае используется преобразование в области коэффициентов PARCOR (или коэффициентов отражения) посредством вычисления:
Figure 00000043
Figure 00000044
Устойчивость подтверждается, если ⎥ki⎢<1, i=1, 2. Следовательно, значение ki условно изменяется до проверки устойчивости фильтра с помощью следующих этапов:
Figure 00000045
Figure 00000046
где min(.,.) и max(.,.) соответственно дают минимум и максимум из 2 операндов.
Следует отметить, что пороговые значения, 0,99 для k1 и 0,6 для k2, могут регулироваться в вариантах изобретения. Следует напомнить, что первый коэффициент отражения k1 характеризует крутизну спектра (или наклон) сигнала, смоделированного 1-м порядком; в изобретении k1 величина насыщается при величине, близкой к границе устойчивости, с целью сохранения данного наклона и удержания наклона, подобного
Figure 00000047
. Также следует напомнить, что второй коэффициент отражения k2 характеризует резонансный уровень сигнала, смоделированного 2-м порядком; так как применение фильтра 2-го порядка имеет целью устранить влияние таких резонансов поблизости частоты 6000 Гц, значение k2 ограничивается более сильно; данное ограничение устанавливается на уровне 0,6.
Затем получают коэффициенты
Figure 00000048
:
Figure 00000049
Figure 00000050
В заключение, в следствие этого, вычисляется частотная характеристика дополнительного фильтра:
Figure 00000051
с
Figure 00000052
. Эта величина вычисляется преимущественно в соответствии со следующим псевдокодом:
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_ab_q[i];
qy=qy+As[i]*exp_tab_q[33-i];
end for
Q=1/sqrt(qx*qx+qy*qy)
где
Figure 00000053
.
Без потери общности можно вычислить коэффициенты фильтра 2-го порядка иным способом, например, путем применения к фильтру LPC
Figure 00000054
16-го порядка процедуры снижения порядка LPC, называемой «понижающей», описанной в J.D. Markel and А.Н. Gray, Linear Prediction of Speech, Springer Verlag, 1976, или выполняя две итерации алгоритма Левинсона-Дарбина (или повышающего) из автокорреляций, вычисленных по сигналу, синтезированному (декодированному) на частоте 12,8 кГц и обработанными методом окна.
Для некоторых сигналов, величина Q, вычисленная из первых 3 декодированных коэффициентов LPC, лучше учитывает влияние крутизны спектра (или наклона) в спектре и позволяет избежать влияния «ложных» пиков или минимумов, близких к 6000 Гц, которые могут исказить или повысить значение величины R, вычисленной из всех коэффициентов LPC.
В предпочтительном варианте осуществления оптимизированный масштабный коэффициент условно выводится из предварительно вычисленных величин R, Р, Q, а именно:
Если наклон (вычисляется как в AMR-WB в блоке 104 посредством нормализованной автокорреляции в виде r(1)/r(0), где r(i) - автокорреляция) является отрицательным (наклон <0 как представлено на фиг. 5b), вычисление масштабного коэффициента происходит следующим образом:
чтобы избежать искажений вследствие слишком резких изменений энергии верхнего диапазона, к значению R применяется сглаживание. В предпочтительном варианте осуществления экспоненциальное сглаживание выполняется с фиксированным во времени коэффициентом (0,5) в виде:
R=0.5R+0.5Rprev
Rprev=R
где Rprev соответствует величине R в предыдущем подкадре, и коэффициент 0,5 оптимизирован эмпирически - очевидно, что коэффициент 0,5 может меняться для другого значения, и также возможны другие способы сглаживания. Следует отметить, что сглаживание позволяет снизить временные видоизменения и, следовательно, избежать искажений.
Затем оптимизированный масштабный коэффициент задается по формуле:
gHB2(m)=max(min(R, Q), Р)/Р
В альтернативном варианте осуществления возможна замена сглаживания R на сглаживание gHB2(m) таким образом, что:
gHB2(m)←0.5gHB2(m)+0.5gHB2(m-1)
Если наклон (вычисляется как в AMR-WB в блоке 104) является положительным (наклон >0, как на фиг. 5а), вычисление масштабного коэффициента выполняется следующим образом:
величина R сглаживается адаптивно во времени посредством более сильного сглаживания, когда R низкая - как и в предыдущем случае это сглаживание позволяет сократить временные изменения и, следовательно, позволяет избежать искажений:
R=(1-α)R+αRprev при α=1-R2
Rprev=R
Затем оптимизированный масштабный коэффициент определяется по формуле:
gHB2(m)=min(R, P, Q)/P
В альтернативном варианте осуществления возможна замена сглаживания R на сглаживание gHB2(m), как вычислено выше.
gHB(m)=(1-α)gHB(m)+αgHB(m-1), m=0, …, 3,
Figure 00000055
где gHB(-1) - масштаб или коэффициент усиления, вычисленный для последнего подкадра предыдущего кадра.
Минимум из R, P, Q в данном случае берется для того, чтобы избежать завышенной оценки масштабного коэффициента.
В одном варианте указанное выше условие, зависящее только от наклона, может расширяться, чтобы учитывать не только параметр наклона, но и другие параметры для того, чтобы уточнить решение. Кроме того, вычисление gHB2(m) может регулироваться в соответствии с этими указанными дополнительными параметрами.
Примером дополнительного параметра является количество переходов через нуль (ZCR, частота переходов через нуль), которые можно определить как:
Figure 00000056
где
Figure 00000057
Параметр zcr, как правило, дает результаты, аналогичные наклону. Удовлетворительным критерием классификации является отношение zcrs, вычисленного для синтезированного сигнала s(n), к zcru, вычисленному для сигнала возбуждения u(n) на частоте 12800 Гц. Это отношение находится в диапазоне от 0 до 1, где 0 означает, что сигнал имеет снижающийся спектр, а 1 означает, что спектр возрастает (что соответствует (1-tilt)/2. В этом случае отношение zcrs/zcru>0,5 соответствует случаю tilt<0, а отношение zcrs/zcru<0,5 соответствует tilt>0.
В одном варианте возможно использование функции параметра tilthp, где tilthp - наклон, вычисленный для синтезированного сигнала s(n), фильтруемого фильтром высоких частот с частотой среза, например, 4800 Гц; в этом случае характеристика
Figure 00000058
от 6 до 8 кГц (применяемая на 16 кГц) соответствует взвешенной характеристике
Figure 00000059
от 4,8 до 6,4 кГц. Так как
Figure 00000058
имеет более уплощенную характеристику, необходимо компенсировать это изменение наклона. Затем в варианте осуществления задается функция масштабного коэффициента в соответствии с tilthp по:
Figure 00000060
. Q и R, таким образом, умножаются на
Figure 00000061
, если tilt>0 или на
Figure 00000062
, если tilt<0.
Теперь рассматривается случай скорости цифрового потока 23,85 кбит/с, для которого осуществляется коррекция усиления посредством блоков 403-408. Кроме того, данная коррекция усиления может быть объектом отдельного изобретения. В этом конкретном варианте осуществления в соответствии с изобретением, информация коррекции усиления, обозначенная gHBcorr(m), передаваемая посредством AMR-WB (совместимого) кодирования со скоростью цифрового потока 0,8 кбит/с используется для улучшения качества при 23,85 кбит/с.
В данном случае предполагается, что AMR-WB (совместимое) кодирование осуществляет квантование коррекции усиления по 4 битам, как описано в пункте G.722.2/5.11 Рекомендации ITU-T или, что эквивалентно, в пункте TS 26.190/5.11 спецификации 3GPP.
В кодере AMR-WB коррекция усиления вычисляется путем сравнения энергии исходного сигнала, подвергнутого дискретизации с частотой 16 кГц и отфильтрованного посредством полосового фильтра с полосой 6-7 кГц, sHB(n), с энергией белого шума на частоте 16 кГц, отфильтрованного синтезирующим фильтром
Figure 00000058
и полосовым фильтром с полосой 6-7 кГц (до фильтрации энергия шума устанавливается на уровне, подобном возбуждению на частоте 12,8 кГц), sHB2(n). Коэффициент усиления равен корню из отношения энергии исходного сигнала к энергии шума, разделенной на два. В одном возможном варианте осуществления возможна замена полосового фильтр на фильтр с более широкой полосой (например, от 6 до 7,6 кГц).
Figure 00000063
Для возможности применения информации усиления, полученной при 23,85 кбит/с (в блоке 407), важно приблизить возбуждение до уровня, близкого к тому, что ожидается от (совместимого) кодирования AMR-WB. Таким образом, в блоке 404 выполняется масштабирование сигнала возбуждения в соответствии с уравнением:
uHB1(n)=gHB3(m)uHB(n), n=80m, …, 80(m+1)-1
где gHB3(m) - коэффициент усиления на отдельный подкадр, вычисленный в блоке 403 в виде:
Figure 00000064
где коэффициент 5 в знаменателе предназначен для компенсации разности между пропускной способностью сигнала u(n) и сигнала uHB(n), учитывая, что в кодировании AMR-WB возбуждение HF является белым шумом в диапазоне 0-8000 Гц.
Индекс из 4 битов на подкадр, обозначенный
Figure 00000065
, посылаемый при скорости 23,85 кбит/с демультиплексируется из битового потока (блок 405) и декодируется блоком 406 следующим образом:
Figure 00000066
где HP_gain(.) - словарь квантования усиления HF, определенный в AMR-WB кодировании и выведенный ниже:
Figure 00000067
В блоке 407 выполняется масштабирование сигнала возбуждения согласно следующему уравнению:
uHB2(n)=gHBcorr(m)uHB1(n), n=80m, …, 80(m+1)-1
В заключение, энергия возбуждения регулируется на уровне текущего подкадра при следующих условиях (блок 408). Ниже приводится вычисление:
Figure 00000068
Числитель здесь представляет энергию сигнала верхнего диапазона, который был бы получен в режиме 23.05. Как объяснено выше, для скоростей цифрового потока <23,85 кбит/с, необходимо сохранить уровень энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения uHB(n), но это ограничение не является необходимым в случае скорости цифрового потока 23,85 кбит/с, так как uHB(n) в этом случае масштабируется коэффициентом усиления gHB3(m). Чтобы избежать операций двойного умножения, некоторые операции умножения, применяемые к сигналу в блоке 400, применяются в блоке 402 посредством умножения на g(m). Значение g(m) зависит от uHB(n) алгоритма синтеза и должно регулироваться таким образом, чтобы уровень энергии между декодированным сигналом возбуждения в нижнем диапазоне и сигналом g(m)uHB(n) сохранялся.
В конкретном варианте осуществления, который описывается более подробно ниже со ссылкой на фиг. 7, g(m)=0.6gHB1(m), где gHB1(m) - коэффициент усиления, который обеспечивает для сигнала uHB то же самое отношение энергии на подкадр и энергии на кадр, что и для сигнала u(n), и 0,6 соответствует среднему значению амплитуды частотной характеристики фильтра компенсации предыскажений в диапазоне от 5000 до 6400 Гц.
Предполагается, что в блоке 408 существует информация о наклоне сигнала нижнего диапазона - в предпочтительном варианте осуществления этот наклон вычисляется как в кодеке AMR-WB в соответствии с блоками 103 и 104, но для оценки наклона возможны и другие способы без изменения принципа изобретения.
Если fac(m)>1 или наклон <0, предполагается следующее:
uHB'(n)=uHB2(n), n=80m, …, 80(m+1)-1
В противном случае:
Figure 00000069
Следует отметить, что вычисление оптимизированного масштабного коэффициента, описанное в данном документе, в частности, в блоках 401 и 402, отличается от вышеуказанного выравнивания уровней фильтра, выполняемого в кодеке AMR-WB+, рядом аспектов:
- Оптимизированный масштабный коэффициент вычисляется непосредственно из передаточных функций фильтров LPC без привлечения какой-либо временной фильтрации. Это упрощает способ.
- Выравнивание выполняется предпочтительно на частоте, отличающейся от частоты Найквиста (6400 Гц), относящейся к нижнему диапазону. Действительно, моделирование LPC неявно представляет подавление сигнала, как правило, вызванное операциями передискретизации и, следовательно, частотная характеристика фильтра LPC может подвергаться снижению на частоте Найквиста, которая не является выбранной общей частотой.
- При этом выравнивание опирается на фильтр низкого порядка (в данном случае 2-го порядка), в дополнение к 2 фильтрам, которые будут выравниваться. Этот дополнительный фильтр делает возможным предотвращение последствий локальных спектральных отклонений (пиков или минимумов), которые могут присутствовать на общей частоте для вычисления частотной характеристики фильтров предсказания.
Для блоков 403-408 преимущество настоящего изобретения состоит в том, что качество сигнала, декодированного при скорости 23,85 кбит/с, в соответствии с изобретением улучшается по сравнению с сигналом, декодированным при 23,05 кбит/с, что не является случаем в декодере AMR-WB. Фактически, данный аспект изобретения позволяет использовать дополнительную информацию (0,8 кбит/с), получаемую при скорости 23,85 кбит/с, но управляемым способом (блок 408), чтобы улучшить качество расширенного сигнала возбуждения при скорости цифрового потока 23,85.
Устройство определения оптимизированного масштабного коэффициента, как показано блоками 401-408 на фиг. 4, реализует способ определения оптимизированного масштабного коэффициента, описанный ниже со ссылкой на фиг. 6.
Основные этапы осуществляются в блоке 401.
Таким образом, расширенный сигнал возбуждения uHB(n) получают в способе Е601 расширения диапазона частот, который включает этап декодирования или извлечения в первом диапазоне частот, называемом нижним диапазоном, сигнала возбуждения и параметров первого диапазона частот, таких как, например, коэффициенты фильтра линейного предсказания первого диапазона частот.
Этап Е602 определяет фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр первого диапазона частот. Чтобы определить этот фильтр, применяются декодированные или извлеченные параметры первого диапазона частот.
В одном варианте осуществления данный этап выполняется усечением передаточной функции фильтра линейного предсказания нижнего диапазона для получения более низкого порядка фильтра, например, 2-го. Данные коэффициенты могут изменяться в зависимости от критерия устойчивости, как описано выше со ссылкой на фиг. 4.
Из коэффициентов дополнительного фильтра, определенных таким образом, реализуется этап Е603 для вычисления оптимизированного масштабного коэффициента, который должен применяться к расширенному сигналу возбуждения. Данный оптимизированный масштабный коэффициент, например, вычисляется по частотной характеристике дополнительного фильтра на общей частоте между нижним диапазоном (первым диапазоном частот) и верхним диапазоном (вторым диапазоном частот). Минимальное значение может выбираться между частотной характеристикой данного фильтра и фильтров нижнего диапазона и верхнего диапазона.
Таким образом, это позволяет избежать завышенной оценки энергии, что могло бы иметь место в способах уровня техники.
Данный этап вычисления оптимизированного масштабного коэффициента, например, описывается выше со ссылкой на фиг. 4 и фиг. 5а и 5b.
Этап Е604, выполняемый в блоке 402 или 409 (в зависимости от скорости декодирования цифрового потока) для расширения диапазона, применяет надлежащим образом вычисленный оптимизированный масштабный коэффициент к расширенному сигналу возбуждения таким образом, чтобы получить оптимизированный расширенный сигнал возбуждения uHB'(n).
В конкретном варианте осуществления устройство определения оптимизированного масштабного коэффициента 708 встраивается в устройство расширения диапазона, описанное со ссылкой на фиг. 7. Данное устройство определения оптимизированного масштабного коэффициента, показанное в виде блока 708, реализует способ определения оптимизированного масштабного коэффициента, описанный выше со ссылкой на фиг. 6.
В этом варианте осуществления блок 400 расширения диапазона на фиг. 4 содержит блоки 700-707 на фиг. 7, описанные далее.
Таким образом, на входе устройства расширения диапазона принимается сигнал нижнего диапазона возбуждения, декодированный или оцененный посредством анализа (u(n)). При расширении диапазона в данном случае применяется возбуждение, декодированное на частоте 12,8 кГц (ехс2 или u(n)) на выходе блока 302, показанного на фиг. 3.
Следует отметить, что в этом варианте осуществления генерация расширенного возбуждения с избыточной частотой дискретизации выполняется в диапазоне частот 5-8 кГц, следовательно, включающем второй диапазон частот (6,4-8 кГц), находящийся выше первого диапазона частот (0-6,4 кГц).
Таким образом, генерация расширенного сигнала возбуждения осуществляется по меньшей мере во втором диапазоне частот, но и в части первого диапазона частот.
Очевидно, что значения, определяющие эти диапазоны частот, могут быть разными в зависимости от декодера или устройства обработки, в котором применяется изобретение.
Для этого примерного варианта осуществления данный сигнал преобразуется для получения спектра сигнала возбуждения U(k) модулем 500 частотно-временного преобразования.
В конкретном варианте осуществления преобразование использует DCT-IV («дискретное косинусное преобразование» IV типа) (блок 700) на текущем кадре 20 мс (256 отсчетов), без применения окна, что сводится к непосредственному преобразованию u(n) с n=0, …, 255 в соответствии со следующей формулой:
Figure 00000070
где N=256 и k=0, …, 255.
Следует отметить, что преобразование без обработки методом окна (или, что эквивалентно, преобразованию с неявным прямоугольным окном длины кадра) возможно потому, что обработка выполняется в области возбуждения, а не в области сигнала, таким образом, чтобы не были слышны искажения (влияния блоков), что является важным преимуществом данного варианта осуществления настоящего изобретения.
В данном варианте осуществления преобразование DCT-IV реализуется посредством FFT в соответствии с так называемым « Evolved DCT (EDCT)» алгоритмом, описанным в статье D.M. Zhang, Н.Т. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149, and implemented in the ITU-T standards G.718 Annex В and G.729.1 Annex E.
В вариантах осуществления изобретения и без ограничения общности преобразование DCT-IV может быть заменено другими краткосрочными частотно-временными преобразованиями той же длины в области возбуждения, такими как FFT («быстрое преобразование Фурье») или DCT-II (дискретное косинусное преобразование II типа). В альтернативном варианте возможна замена DCT-IV в кадре на преобразование с перекрытием-сложением и применением окна с длиной, большей, чем длина текущего кадра, например с помощью MDCT («модифицированного дискретного косинусного преобразования»). В этом случае задержка Т в блоке 310, показанном на фиг. 3, должна быть должным образом отрегулирована (уменьшена) в зависимости от дополнительной задержки из-за анализа/синтеза посредством данного преобразования.
Затем спектр DCT U(k) 256 отсчетов, охватывающих диапазон 0-6400 Гц (на частоте 12,8 кГц), расширяется (блок 701) в спектр 320 отсчетов, охватывающих диапазон 0-8000 Гц (на частоте 16 кГц) в следующем виде:
Figure 00000071
где предпочтительно принимается, что start_band=160.
Блок 701 работает как модуль генерации расширенного сигнала возбуждения с избыточной частотой дискретизации и выполняет передискретизацию с частоты 12,8 до 16 кГц в частотной области посредством добавления
Figure 00000072
отсчетов (k=240, …, 319) в спектр, при этом отношение 16 к 12,8 составляет 5/4.
Кроме того, блок 701 выполняет неявную высокочастотную фильтрацию в диапазоне 0-5000 Гц, так как первые 200 отсчетов UHB1(k) устанавливаются на ноль; как описано ниже, данная высокочастотная фильтрация также дополняется частью монотонно возрастающего затухания спектральных значений индексов k=200, …, 255 в диапазоне 5000-6400 Гц; это монотонно возрастающее затухание реализуется в блоке 704, но может быть выполняться отдельно вне блока 704. Равносильно тому, что и в вариантах настоящего изобретения, внедрение высокочастотной фильтрации, разделенной на блоки коэффициентов индекса k=0, …, 199, установленных в ноль, затухающих коэффициентов k=200, …, 255 в преобразованной области, можно будет, в силу вышесказанного, выполнять в ходе одного этапа.
В этом примерном варианте осуществления и в соответствии с определением UHB1(k), следует отметить, что диапазон 5000-6000 Гц UHB1(k) (что соответствует индексам k=200, …, 239) копируется из диапазона 5000-6000 Гц U(k). Данный подход позволяет сохранить исходный спектр в этом диапазоне и позволяет избежать введения искажения в диапазоне 5000-6000 Гц при сложении синтеза HF с синтезом LF, в частности, фаза сигнала (неявно представленная в обрасти DCT-IV) в данном диапазоне сохраняется.
Диапазон 6000-8000 Гц UHB1(k) в данном случае определяется посредством копирования диапазона 4000-6000 Гц U(k), поскольку значение start_band предпочтительно устанавливается равным 160.
В одном варианте варианта осуществления значение start_band может подстраиваться вблизи значения 160. Подробности подстройки значения start_band в данном документе не описываются, потому что они выходят за рамки изобретения без изменения его объема.
Для некоторых широкополосных сигналов (подвергнутых дискретизации на частоте 16 кГц) верхний диапазон (>6 кГц), может быть зашумленным, гармоническим или содержать смесь шума и гармоник. Кроме того, уровень гармоничности в диапазоне 6000-8000 Гц полосы, как правило, коррелирует с уровнем в более низкочастотных диапазонах. Таким образом, блок 702 генерации шума выполняет генерацию шума в частотной области, UHBN(k) для k=240, …, 319 (80 отсчетов), что соответствует второму диапазону частот, называемому высокочастотным, с целью последующего объединения этого шума со спектром UHB1(k) в блоке 703.
В конкретном варианте осуществления шум (в диапазоне 6000-8000 Гц) генерируется псевдослучайно посредством линейного конгруэнтного генератора на 16 бит:
Figure 00000073
с правилом, что UHBN(239) в текущем кадре соответствует значению UHBN(319) предыдущего кадра. В вариантах изобретения возможна замена данной генерации шума посредством других способов.
Блок 703 объединения может быть получен различными путями. В предпочтительном варианте адаптивное аддитивное микширование учитывается в следующем виде:
UHB2(k)=βUHB1(k)+αGHBNUHBN(k), k=240, …, 319
где GHBN - нормирующий множитель, предназначенный для выравнивания уровня энергии между двумя сигналами,
Figure 00000074
при ε=0,01, и коэффициент α (между 0 и 1) регулируется в зависимости от параметров, оцененных из декодированного нижнего диапазона, и коэффициент β (между 0 и 1) зависит от α.
В предпочтительном варианте осуществления энергия шума вычисляется в трех диапазонах: 2000-4000 Гц, 4000-6000 Гц и 6000-8000 Гц, с
Figure 00000075
Figure 00000076
Figure 00000077
где
Figure 00000078
и N(k1, k2) - множество индексов k, для которых коэффициент индекса k классифицируется как связанный с шумом. Данное множество может, например, быть получено посредством выявления локальных пиков в U'(k), что проверяет ⎥U'(k)⎢≥⎥U'(k-1)⎢ и ⎥U'(k)⎢≥⎥U'(k+1)⎢ и посредством учета того, что эти лучи не связаны с шумом, т.е. (посредством применения отрицания предыдущего условия):
Figure 00000079
Следует отметить, что возможны другие способы вычисления энергии шума, например, посредством медианного значения спектра на рассматриваемом диапазоне или посредством применения сглаживания к каждому частотному лучу перед вычислением энергии в расчете на диапазон.
α устанавливается таким образом, что отношение энергии шума в диапазонах 4-6 кГц и 6-8 кГц является таким же, что и в диапазонах 2-4 кГц и 4-6 кГц:
Figure 00000080
где
Figure 00000081
В вариантах изобретения вычисление α возможно заменить другими способами. Например, как вариант, возможно извлечение (вычисление) различных параметров (или «признаков»), характеризующих сигнал в нижнем диапазоне, включая параметр «наклон», подобно вычисляемому в кодеке AMR-WB, и коэффициент α будет оцениваться в зависимости от линейной регрессии этих различных параметров посредством ограничения его значения между 0 и 1. Линейную регрессию, например, можно оценить контролируемым образом посредством оценки коэффициента α путем замены оригинального верхнего диапазона в обучающей базе. Следует отметить, что то, каким образом вычисляется α, не ограничивает сущность изобретения.
В предпочтительном варианте осуществления принимается следующее:
Figure 00000082
с целью сохранения энергии расширенного сигнала после микширования.
В одном варианте коэффициенты β и α могут быть адаптированы для принятия во внимание того факта, что шум, введенный в заданный диапазон сигнала, как правило, воспринимается сильнее, чем гармонический сигнал с той же энергией в том же диапазоне. Таким образом, возможно изменение коэффициентов β и α следующим образом:
β←β.ƒ(α)
α←α.ƒ(α)
где ƒ(α) - убывающая функция от α, например,
Figure 00000083
, b=1.1, а=1.2, f(α), ограниченные от 0,3 до 1. Следует отметить, что после умножения на ƒ(α), α22<1, так что энергия сигнала UHB2(k)=βUHB1(k)+αGHBNUHBN(k) ниже, чем энергия UHB1(k) (разность энергий зависит от α, чем больше добавляется шума, тем больше подавляется энергия).
В других вариантах изобретения можно принять:
β=1-α
что дает возможность сохранить уровень амплитуды (при объединении сигналов одинакового знака); однако данный вариант имеет недостаток, в результате которого общая энергия (на уровне UHB2(k)) не является монотонной, как функция α.
Таким образом, следует отметить, что в блоке 703 выполняются действия, эквивалентные блоку 101, приведенному на фиг. 1, для нормализации белого шума в зависимости от возбуждения, который, в отличие от данного случая, уже расширен в частотной области до частоты 16 кГц; кроме того, микширование ограничивается диапазоном 6000-8000 Гц.
В простом варианте можно считать реализацию блока 703, в котором спектры, UHB1(k) или GHBNUHBN(k) выбираются (переключаются) адаптивно, что сводится к допущению значений только 0 или 1 для α; этот подход сводится к классификации типа возбуждения для генерации в диапазоне 6000-8000 Гц.
В блоке 704 необязательно выполняется двойная операция применения частотной характеристики полосового фильтра и фильтрации предыскажений в частотной области.
В одном варианте изобретения фильтрация предыскажений может выполняться во временной области после блока 705 до блока 700; однако, в этом случае полосовая фильтрация, выполняемая в блоке 704, может оставить определенные низкочастотные компоненты очень низких уровней, которые усиливаются посредством компенсации предыскажений, что может несущественно изменять декодированный нижний диапазон. По этой причине, в данном случае предпочтительно выполнять компенсацию предыскажений в частотной области. В предпочтительном варианте осуществления коэффициенты индекса k=0, …, 199 устанавливаются равными нулю, таким образом, компенсация предыскажений ограничивается старшими коэффициентами.
Сначала компенсируются предыскажения возбуждения в соответствии со следующем уравнением:
Figure 00000084
где Gdeemph(k) - частотная характеристика фильтра 1/(1-0.68z-1) в ограниченном дискретном диапазоне частот. Принимая во внимание дискретные (нечетные) частоты DCT-IV, Gdeemph(k) определяется в данном случае как:
Figure 00000085
где
Figure 00000086
.
В случае, когда применяется преобразование, отличное от DCT-IV, определение θk можно регулировать (например, для четных частот).
Следует отметить, что компенсация предыскажений применяется в два этапа для k=200, …, 255, соответствующий диапазону частот 5000-6400 Гц, где характеристика 1/(1-0.68z-1) применяется как на частоте 12,8 кГц, и k=256, …, 319, соответствующий диапазону частот 6400-8000 Гц, где характеристика расширяется от частоты 16 кГц до постоянного значения в диапазоне 6,4-8 кГц.
Следует отметить, что в кодеке AMR-WB для HF синтеза не компенсируются предыскажения.
В варианте осуществления, представленном здесь, для высокочастотного сигнала, наоборот, компенсируются предыскажения для того, чтобы ввести его в область, согласованную с низкочастотным сигналом (0-6,4 кГц), который выходит из блока 305, приведенного на фиг. 3. Это важно для оценки и последующей регулировки энергии синтеза HF.
В одном варианте варианта осуществления с целью уменьшения сложности можно установить Gdeemph(k) равным постоянному значению, независимому от k, принимая, например, Gdeemph(k)=0.6 что примерно соответствует среднему значению Gdeemph(k) для k=200, …, 319 в условиях описанного выше варианта осуществления.
В другом варианте варианта осуществления устройства расширения компенсация предыскажений может выполняться равноценным образом во временной области после обратного DCT.
В дополнение к компенсации предыскажений применяется полосовая фильтрация с двумя отдельными частями: одна - фиксированная высокочастотная, другая - адаптивная низкочастотная (функция скорости цифрового потока).
Данная фильтрация выполняется в частотной области.
В предпочтительном варианте осуществления частичная характеристика фильтра низких частот вычисляется в частотной области следующим образом:
Figure 00000087
где Nlp=60 при скорости 6,6 кбит/с, 40 при скорости 8,85 кбит/с и 20 при скоростях цифрового потока >8,85 бит/с.
Затем полосовой фильтр применяется в виде:
Figure 00000088
Определение Ghp(k), k=0, …, 55, дается, например, в таблице 2 ниже.
Figure 00000089
Figure 00000090
Следует отметить, что в вариантах изобретения значения Ghp(k) могут изменяться при сохранении монотонно возрастающего затухания. Аналогичным образом, низкочастотная фильтрация с переменной полосой пропускания Glp(k) может регулироваться с помощью значений или частотной среды, которые отличаются, не изменяя принцип этого этапа фильтрации.
Кроме того, следует отметить, что полосовая фильтрация может адаптироваться посредством определения единого этапа фильтрации, объединяющего высокочастотную и низкочастотную фильтрацию.
В другом варианте осуществления полосовая фильтрация может выполняться равноценным образом во временной области (как и в блоке 112 на фиг. 1) с различными коэффициентами фильтра в соответствии со скоростью цифрового потока после этапа обратного DCT. Тем не менее, следует отметить, что предпочтительно выполнить этот этап непосредственно в частотной области, так как фильтрация выполняется в области возбуждения LPC и, следовательно, проблемы циклической свертки и краевых эффектов очень ограничены в этой области.
Кроме того, следует отметить, что, в случае скорости цифрового потока 23,85 кбит/с компенсация предыскажений возбуждения UHB2(k) не выполняется, чтобы оставаться в соответствии с тем способом, в котором коррекция усиления вычисляется в кодере AMR-WB, и чтобы избежать операций двойного умножения. В этом случае в блоке 704 выполняется только низкочастотная фильтрация.
В блоке 705 обратного преобразования выполняется обратное DCT на 320 отсчетах, чтобы найти высокочастотное возбуждение, подвергнутое дискретизации с частотой 16 кГц. Его реализация идентична блоку 700, потому что DCT-IV является ортонормированным, за исключением того, что длина преобразования составляет 320 вместо 256, и получается следующее:
Figure 00000091
где N16k=320 и k=0, …, 319.
Данное возбуждение, подвергнутое дискретизации с частотой 16 кГц, затем необязательно масштабируется посредством коэффициентов усиления, определенных для каждого подкадра 80 отсчетов (блок 707).
В предпочтительном варианте осуществления коэффициент усиления gHB1(m) сначала вычисляется (этап 706) в расчете на подкадр посредством отношений энергий подкадров таким образом, что в каждом подкадре индекса m=0, 1, 2 или 3 текущего кадра:
Figure 00000092
где
Figure 00000093
Figure 00000094
Figure 00000095
при ε=0,01. Коэффициент усиления на подкадр gHB1(m) можно записать в виде:
Figure 00000096
что показывает, что в сигнале uHB обеспечивается такое же отношение энергии на подкадр и энергии на кадр, как в сигнале u(n).
В блоке 707 выполняется масштабирование объединенного сигнала в соответствии со следующим уравнением:
uHB(n)=gHB1(m)uHB0(n), n=80m, …, 80(m+1)-1
Следует отметить, что реализация блока 706 отличается от блока 101, приведенного на фиг. 1, так как энергия на текущем уровне кадра учитывается в дополнение к этому подкадру. Это обеспечивает отношение энергии каждого подкадра в зависимости от энергии кадра. Следовательно, сравниваются отношения энергий (или относительные энергии), а не абсолютные энергии нижнего диапазона и верхнего диапазона.
Таким образом, данный этап масштабирования позволяет сохранять в верхнем диапазоне отношение энергий подкадра и кадра таким же образом, как в нижнем диапазоне.
В данном случае следует отметить, что в случае скорости цифрового потока 23,85 кбит/с коэффициенты усиления gHB1(m) вычисляются, но применяются в следующем этапе, как описано со ссылкой на фиг. 4, чтобы избежать операций двойного умножения. В этом случае uHB(n)=uHB0(n).
В соответствии с изобретением затем в блоке 708 выполняется вычисление масштабного коэффициента на подкадр сигнала (этапы Е602-Е603, показанные на фиг. 6), как описано выше со ссылкой на фиг.6 и подробно изображено на фиг. 4 и 5.
В заключение, скорректированное возбуждение uHB'(n) фильтруется посредством модуля 710 фильтрации, что может выполняться в данном случае посредством принятия в качестве передаточной функции
Figure 00000097
, где γ=0,9 при скорости 6,6 кбит/с и γ=0,6 при других скоростях цифрового потока, что ограничивает порядок фильтра 16-м порядком.
В одном варианте этот фильтр можно будет выполнять таким же образом, как описано для блока 111 на фиг. 1 AMR-WB декодера, но порядок фильтра изменятся до 20 при скорости цифрового потока 6,6, что не существенно меняет качество синтезированного сигнала. В другой варианте возможно выполнение синтезирующей фильтрации LPC в частотной области после вычисления частотной характеристики фильтра, реализованного в блоке 710.
В альтернативном варианте осуществления этап фильтрации посредством фильтра 710 линейного предсказания для второго диапазона частот объединяется с применением оптимизированного масштабного коэффициента, что позволяет снизить сложность обработки. Таким образом, этапы фильтрации
Figure 00000097
и применения оптимизированного масштабного коэффициента gHB2 объединяются в единый этап фильтрации
Figure 00000098
для снижения сложности обработки.
В альтернативных вариантах осуществления настоящего изобретения кодирование нижнего диапазона (0-6,4 кГц) может заменяться кодером CELP, отличающимся от того, что используется в AMR-WB, таким как, например, кодер CELP в G.718 при скорости 8 кбит/с. Без потери общности могли бы применяться другие широкополосные кодеры или кодеры, работающие на частотах выше 16 кГц, в которых кодирование нижнего диапазона производится на внутренней частоте 12,8 кГц. Кроме того, очевидно, что изобретение может быть адаптировано к частотами дискретизации, отличающимся от частоты 12,8 кГц, когда низкочастотный кодер работает с частотой дискретизации ниже, чем у исходного или восстановленного сигнала. Когда при низкочастотном декодировании не используется линейное предсказание, отсутствует сигнал возбуждения для расширения, в этом случае возможно выполнение анализа LPC сигнала, восстановленного в текущем кадре, и возбуждение LPC будет вычисляться таким образом, чтобы была возможность применения изобретения.
В заключение, в другом варианте изобретения возбуждение (u(n)) подвергается передискретизации, например, посредством линейной интерполяции или кубического «сплайна», из частоты 12,8 в 16 кГц перед преобразованием (например, DCT-IV) длины 320. Недостатком данного видоизменения является то, что оно является более сложными, поскольку преобразование (DCT-IV) возбуждения вычисляется в дальнейшем по большей длине и передискретизация не выполняется в области преобразования.
Кроме того, в вариантах изобретения все вычисления, необходимые для оценки коэффициентов усиления (GHBN, gHB1(m), gHB2(m), gHBN, …) могут выполняться в логарифмической области.
В вариантах диапазона расширения возбуждение в нижнем диапазоне u(n) и фильтр LPC
Figure 00000099
будут оцениваться в каждом кадре посредством анализа LPC сигнала нижнего диапазона, для которого диапазон должен быть расширен. Затем сигнал возбуждения нижнего диапазона извлекается посредством анализа звукового сигнала.
В возможном варианте осуществления этого варианта звуковой сигнал нижнего диапазона подвергается передискретизации перед этапом извлечения возбуждения таким образом, что возбуждение, извлеченное из звукового сигнала (посредством линейного предсказания) уже подвергнуто передискретизации.
Расширение диапазона, показанное на фиг. 7, применяется в данном случае к нижнему диапазону, который не декодируется, но анализируется.
Фиг. 8 представляет примерный физический вариант осуществления устройства определения оптимизированного масштабного коэффициента 800 в соответствии с изобретением. Последнее может быть неотъемлемой частью декодера сигнала звуковой частоты или единицы оборудования, принимающей сигналы звуковой частоты, декодируемые или нет.
Данный тип устройства содержит процессор PROC, взаимодействующий с блоком памяти ВМ, содержащим запоминающее и/или оперативное запоминающее устройство MEM.
Такое устройство содержит входной модуль Е, подходящий для приема звукового сигнала возбуждения, декодированного или извлеченного в первом диапазоне частот, называемом нижним диапазоном (u(n) или U(k)), и параметров синтезирующего фильтра линейного предсказания
Figure 00000100
. Оно содержит модуль S вывода, подходящий для передачи синтезированного и оптимизированного высокочастотного сигнала (uHB'(n)), например, в фильтрующий модуль, как блок 710 на фиг. 7, или в модуль передискретизации, как модуль 311 на фиг. 3.
Блок памяти может преимущественно содержать компьютерную программу, содержащую команды программного кода для реализации этапов способа определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в пределах сущности настоящего изобретения, когда эти команды выполняются процессором PROC, и, в частности, этапы определения (Е602) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот, и вычисления (Е603) оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Как правило, описание на фиг. 6 повторяет этапы алгоритма такой компьютерной программы. Компьютерная программа также может храниться в системе памяти, которая может считываться считывателем устройства или которая может загружаться в его пространство памяти.
Память MEM хранит, как правило, все данные, необходимые для реализации способа.
В возможном варианте осуществления описанное таким образом устройство также может включать функции для применения оптимизированного масштабного коэффициента в расширенном сигнале возбуждения, расширения диапазона частот, декодирования низкой частоты и других функций обработки, описанных, например, на фигурах 3 и 4 в дополнение к функциям определения оптимизированного масштабного коэффициента в соответствии с изобретением.

Claims (20)

1. Способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, при этом способ (Е601) расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере на одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот, при этом способ определения отличается тем, что включает следующие этапы:
- определение (Е602) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- вычисление (Е603) оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
2. Способ по п. 1, отличающийся тем, что способ расширения диапазона включает этап применения (Е604) оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.
3. Способ по п. 2, отличающийся тем, что применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.
4. Способ по п. 1, отличающийся тем, что коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.
5. Способ по п. 4, отличающийся тем, что коэффициенты дополнительного фильтра изменяют в зависимости от критерия устойчивости дополнительного фильтра.
6. Способ по п. 1, отличающийся тем, что вычисление оптимизированного масштабного коэффициента включает следующие этапы:
- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;
- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;
- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.
7. Способ по п. 1, отличающийся тем, что дополнительно включает следующие этапы, реализуемые на предопределенной скорости декодирования цифрового потока:
- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисляемого для каждого подкадра в зависимости от отношения энергий декодированного сигнала возбуждения и расширенного сигнала возбуждения;
- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;
- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.
8. Устройство определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, при этом устройство (400) расширения диапазона содержит модуль декодирования или извлечения в первом диапазоне частот, сигнал возбуждения и параметры первого диапазона частот, содержащие коэффициенты фильтра линейного предсказания, модуль генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль фильтрации посредством фильтра линейного предсказания для второго диапазона частот, при этом устройство определения отличается тем, что содержит:
- модуль (401а) определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- модуль (401b) вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
9. Декодер сигнала звуковой частоты, отличающийся тем, что он содержит устройство определения оптимизированного масштабного коэффициента по п. 8.
10. Носитель данных, который может быть прочитан посредством устройства определения оптимизированного масштабного коэффициента, на котором хранится компьютерная программа, содержащая команды программного кода для выполнения этапов способа определения оптимизированного масштабного коэффициента по одному из пп. 1-7, при выполнении этих команд процессором.
RU2016104466A 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты RU2668058C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1356909 2013-07-12
FR1356909A FR3008533A1 (fr) 2013-07-12 2013-07-12 Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
PCT/FR2014/051720 WO2015004373A1 (fr) 2013-07-12 2014-07-04 Facteur d'échelle optimisé pour l'extension de bande de fréquence dans un décodeur de signaux audiofréquences

Related Child Applications (3)

Application Number Title Priority Date Filing Date
RU2017144515A Division RU2756435C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144519A Division RU2756434C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144518A Division RU2751104C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Publications (3)

Publication Number Publication Date
RU2016104466A RU2016104466A (ru) 2017-08-18
RU2016104466A3 RU2016104466A3 (ru) 2018-05-28
RU2668058C2 true RU2668058C2 (ru) 2018-09-25

Family

ID=49753286

Family Applications (4)

Application Number Title Priority Date Filing Date
RU2017144515A RU2756435C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144518A RU2751104C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2016104466A RU2668058C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144519A RU2756434C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Family Applications Before (2)

Application Number Title Priority Date Filing Date
RU2017144515A RU2756435C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
RU2017144518A RU2751104C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2017144519A RU2756434C2 (ru) 2013-07-12 2014-07-04 Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты

Country Status (11)

Country Link
US (8) US10446163B2 (ru)
EP (1) EP3020043B1 (ru)
JP (4) JP6487429B2 (ru)
KR (4) KR102319881B1 (ru)
CN (4) CN107527629B (ru)
BR (4) BR122017018553B1 (ru)
CA (4) CA3108924A1 (ru)
FR (1) FR3008533A1 (ru)
MX (1) MX354394B (ru)
RU (4) RU2756435C2 (ru)
WO (1) WO2015004373A1 (ru)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
TWI684368B (zh) * 2017-10-18 2020-02-01 宏達國際電子股份有限公司 獲取高音質音訊轉換資訊的方法、電子裝置及記錄媒體
TWI702594B (zh) * 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
CN110660409A (zh) * 2018-06-29 2020-01-07 华为技术有限公司 一种扩频的方法及装置
CN113812136A (zh) * 2019-04-03 2021-12-17 杜比实验室特许公司 可缩放话音场景媒体服务器
US20230067510A1 (en) * 2020-02-25 2023-03-02 Sony Group Corporation Signal processing apparatus, signal processing method, and program
RU2747368C1 (ru) * 2020-07-13 2021-05-04 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ мониторинга и управления информационной безопасностью подвижной сети связи

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
WO2011047578A1 (zh) * 2009-10-23 2011-04-28 华为技术有限公司 频带扩展方法及装置
US20110099004A1 (en) * 2009-10-23 2011-04-28 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US8121832B2 (en) * 2006-11-17 2012-02-21 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
RU2011144573A (ru) * 2009-04-03 2013-05-10 Нтт Докомо, Инк. Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2568984C (en) * 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE502244C2 (sv) * 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
JP3189614B2 (ja) * 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US6002352A (en) * 1997-06-24 1999-12-14 International Business Machines Corporation Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
DE60204039T2 (de) * 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
US7542896B2 (en) * 2002-07-16 2009-06-02 Koninklijke Philips Electronics N.V. Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
WO2005040749A1 (ja) * 2003-10-23 2005-05-06 Matsushita Electric Industrial Co., Ltd. スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
ATE430360T1 (de) * 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US20090319277A1 (en) * 2005-03-30 2009-12-24 Nokia Corporation Source Coding and/or Decoding
JP5129115B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 高帯域バーストの抑制のためのシステム、方法、および装置
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101385079B (zh) * 2006-02-14 2012-08-29 法国电信公司 在音频编码/解码中用于知觉加权的设备
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
KR100905585B1 (ko) * 2007-03-02 2009-07-02 삼성전자주식회사 음성신호의 대역폭 확장 제어 방법 및 장치
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
EP2301021B1 (en) * 2008-07-10 2017-06-21 VoiceAge Corporation Device and method for quantizing lpc filters in a super-frame
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
CA2683983A1 (en) 2009-10-21 2011-04-21 Carbon Solutions Inc. Stabilization and remote recovery of acid gas fractions from sour wellsite gas
US8380524B2 (en) * 2009-11-26 2013-02-19 Research In Motion Limited Rate-distortion optimization for advanced audio coding
US8455888B2 (en) * 2010-05-20 2013-06-04 Industrial Technology Research Institute Light emitting diode module, and light emitting diode lamp
SG185606A1 (en) * 2010-05-25 2012-12-28 Nokia Corp A bandwidth extender
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
EP3089164A1 (en) * 2011-11-02 2016-11-02 Telefonaktiebolaget LM Ericsson (publ) Generation of a high band extension of a bandwidth extended audio signal
EP2774148B1 (en) * 2011-11-03 2014-12-24 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of audio signals
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
CN102930872A (zh) * 2012-11-05 2013-02-13 深圳广晟信源技术有限公司 用于宽带语音解码中基音增强后处理的方法及装置
ES2924427T3 (es) * 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
JP2017145792A (ja) 2016-02-19 2017-08-24 株式会社ケーヒン インテークマニホールドにおけるセンサ取付構造
RU2636700C1 (ru) * 2016-03-18 2017-11-27 Акционерное общество "Лаборатория Касперского" Способ устранения уязвимостей устройств, имеющих выход в Интернет
TWI596952B (zh) 2016-03-21 2017-08-21 固昌通訊股份有限公司 耳道式耳機

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8121832B2 (en) * 2006-11-17 2012-02-21 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency signal
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
RU2011144573A (ru) * 2009-04-03 2013-05-10 Нтт Докомо, Инк. Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи
WO2011047578A1 (zh) * 2009-10-23 2011-04-28 华为技术有限公司 频带扩展方法及装置
US20110099004A1 (en) * 2009-10-23 2011-04-28 Qualcomm Incorporated Determining an upperband signal from a narrowband signal

Also Published As

Publication number Publication date
KR20160030555A (ko) 2016-03-18
JP2017215618A (ja) 2017-12-07
CN107492385A (zh) 2017-12-19
JP6515147B2 (ja) 2019-05-15
KR102315639B1 (ko) 2021-10-21
CN107527629A (zh) 2017-12-29
BR112016000337B1 (pt) 2021-02-23
US10672412B2 (en) 2020-06-02
RU2756435C2 (ru) 2021-09-30
CN107527629B (zh) 2022-01-04
CN107492385B (zh) 2022-02-11
RU2016104466A3 (ru) 2018-05-28
RU2016104466A (ru) 2017-08-18
RU2017144519A3 (ru) 2021-04-19
US20190385626A1 (en) 2019-12-19
US10943593B2 (en) 2021-03-09
BR122017018553B1 (pt) 2022-04-19
KR102343019B1 (ko) 2021-12-27
US10446163B2 (en) 2019-10-15
US10438600B2 (en) 2019-10-08
CA3109028C (en) 2024-01-30
US10943594B2 (en) 2021-03-09
RU2017144518A3 (ru) 2021-05-07
KR102423081B1 (ko) 2022-07-21
US10354664B2 (en) 2019-07-16
US10438599B2 (en) 2019-10-08
JP6515157B2 (ja) 2019-05-15
KR20170103996A (ko) 2017-09-13
US20190378527A1 (en) 2019-12-12
CA3109028A1 (en) 2015-01-15
WO2015004373A1 (fr) 2015-01-15
CN105378837B (zh) 2019-09-13
EP3020043B1 (fr) 2017-02-08
EP3020043A1 (fr) 2016-05-18
RU2017144515A3 (ru) 2021-04-19
RU2017144515A (ru) 2019-02-15
CA2917795C (en) 2021-11-30
RU2017144518A (ru) 2019-02-15
CA3108921A1 (en) 2015-01-15
FR3008533A1 (fr) 2015-01-16
CN107527628B (zh) 2021-03-30
BR122017018557B1 (pt) 2021-08-03
MX2016000255A (es) 2016-04-28
JP2017215601A (ja) 2017-12-07
CA3108924A1 (en) 2015-01-15
JP2016528539A (ja) 2016-09-15
CN105378837A (zh) 2016-03-02
US10783895B2 (en) 2020-09-22
JP2017215619A (ja) 2017-12-07
RU2017144519A (ru) 2019-02-15
BR122017018556B1 (pt) 2022-03-29
JP6487429B2 (ja) 2019-03-20
KR102319881B1 (ko) 2021-11-02
MX354394B (es) 2018-02-23
KR20170103995A (ko) 2017-09-13
US20180018983A1 (en) 2018-01-18
JP6515158B2 (ja) 2019-05-15
US20180018982A1 (en) 2018-01-18
US20160203826A1 (en) 2016-07-14
US20190371350A1 (en) 2019-12-05
CA2917795A1 (en) 2015-01-15
US20190385625A1 (en) 2019-12-19
RU2756434C2 (ru) 2021-09-30
CN107527628A (zh) 2017-12-29
CA3108921C (en) 2024-01-30
RU2751104C2 (ru) 2021-07-08
KR20170103042A (ko) 2017-09-12
US20180082699A1 (en) 2018-03-22

Similar Documents

Publication Publication Date Title
RU2668058C2 (ru) Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
US20200353765A1 (en) Frequency band extension in an audio signal decoder
JP2016528539A5 (ru)