RU2756435C2 - Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты - Google Patents
Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты Download PDFInfo
- Publication number
- RU2756435C2 RU2756435C2 RU2017144515A RU2017144515A RU2756435C2 RU 2756435 C2 RU2756435 C2 RU 2756435C2 RU 2017144515 A RU2017144515 A RU 2017144515A RU 2017144515 A RU2017144515 A RU 2017144515A RU 2756435 C2 RU2756435 C2 RU 2756435C2
- Authority
- RU
- Russia
- Prior art keywords
- frequency
- filter
- smoothing
- signal
- frequency range
- Prior art date
Links
- 230000005284 excitation Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000009499 grossing Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims description 35
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000012937 correction Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 10
- 230000007480 spreading Effects 0.000 description 9
- 238000003892 spreading Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000004606 Fillers/Extenders Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
Настоящее изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру. Технический результат достигается за счет вычисления частотной характеристики R фильтра линейного предсказания диапазона частот, сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом. 2 н. и 6 з.п. ф-лы, 10 ил.
Description
Настоящее изобретение относится к области кодирования/декодирования и обработки сигналов звуковой частоты (например, речи, музыки или других подобных сигналов) для их передачи или их хранения.
Более конкретно, изобретение относится к способу и устройству для определения оптимизированного масштабного коэффициента, который может использоваться для регулировки уровня сигнала возбуждения или, эквивалентным образом, фильтра в качестве компонента расширения диапазона частот в декодере или улучшения сигналов звуковой частоты посредством процессора.
Существуют многочисленные методы сжатия (с потерей) сигнала звуковой частоты, такого как речь или музыка.
Традиционные способы кодирования для разговорных приложений, как правило, делятся на кодирование формы сигнала (РСМ «кодово-импульсная модуляция», ADCPM «адаптивная дифференциальная кодово-импульсная модуляция», кодирование с преобразованием и т.д.), параметрическое кодирование (LPC «кодирование с линейным предсказанием», синусоидальное кодирование и т.д.) и параметрическое гибридное кодирование с квантованием параметров посредством «анализа через синтез», самым известным примером которого является кодирование CELP («линейное предсказание с кодовым возбуждением»).
Для неразговорных приложений в уровень техники для кодирования (монофонического) звукового сигнала входит перцептуальное кодирование с преобразованием или в поддиапазонах с параметрическим кодированием высоких частот посредством репликации диапазона.
Обзор способов кодирования обычной речи и звука можно найти в работах W.B. Kleijn and K.K. Paliwal (eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008.
Внимание в данных работах сосредоточено, в частности, на 3GPP стандартизированном AMR-WB («адаптивном многоскоростном широкополосном») кодеке (кодере и декодере), который работает на входной/выходной частоте 16 кГц, и в котором сигнал разделяется на два поддиапазона, нижний диапазон (0-6,4 кГц), который дискретизируется с частотой 12,8 кГц и кодируется посредством CELP модели, и верхний диапазон (6,4-7 кГц), который параметрически восстанавливается посредством «расширения диапазона» (или BWE «расширения полосы пропускания») с или без дополнительной информации в зависимости от режима текущего кадра. Можно отметить, что ограничение кодированного диапазона кодека AMR-WB на частоте 7 кГц, по существу, связано с тем, что частотная характеристика при передаче широкополосных терминалов была аппроксимирована в момент стандартизации (ETSI/3GPP, в дальнейшем ITU-T) в соответствии с частотной маской, определенной в стандарте ITU-T P.341 и, более конкретно посредством так называемого фильтра «P341», определенного в стандарте ITU-T G.191, который отсекает частоты выше 7 кГц (данный фильтр соблюдает маску, определенную в P.341). Тем не менее, в теории хорошо известно, что сигнал, подвергнутый дискретизации с частотой 16 кГц, может иметь определенный звуковой диапазон от 0 до 8000 Гц; поэтому AMR-WB-кодек вводит ограничение верхнего диапазона по сравнению с теоретической полосой пропускания 8 кГц.
3GPP AMR-WB речевой кодек был стандартизирован в 2001 году, главным образом, для режима с коммутацией каналов (CS) телефонных приложений на GSM (2G) и UMTS (3G). Этот же кодек также был стандартизирован в 2003 году в стандарте ITU-T в виде рекомендации G.722.2 «Широкополосное кодирование речи при приблизительно 16 кбит/с с применением адаптивного многоскоростного широкополосного кодирования (AMR-WB)».
Он имеет девять скоростей цифрового потока, называемых режимами, от 6,6 до 23,85 кбит/с, и содержит механизмы непрерывной передачи (DTX «прерывистой передачи») с определением присутствия голосового сигнала (VAD) и генерацией комфортного шума (CNG) из кадров описания периода молчания (SID «дескриптор информации о паузе») и механизмы коррекции потерянных кадров (FEC «маскирование стирания кадров», иногда называемое PLC «маскирование потери пакетов»).
Подробная информация о AMR-WB кодировании и алгоритме декодирования не повторяется в данной заявке; подробное описание этого кодека можно найти в спецификациях 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) и в ITU-T-G.722.2 (и соответствующих дополнениях и приложениях), и в статье B. Bessette и другие, озаглавленной «The adaptive multirate wideband speech codec (AMR-WB)ʺ, IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636, и исходном коде связанных стандартов 3GPP и ITU-T.
Принцип расширения диапазона в кодеке AMR-WB довольно слабо развит. Действительно, верхний диапазон (6,4-7 кГц) генерируется посредством формирования белого шума во времени (применяемого при формировании коэффициентов усиления на подкадр) и частотной огибающей (посредством применения синтезирующего фильтра линейного предсказания или LPC «кодирование с линейным предсказанием»). Данный метод расширения диапазона показан на фиг. 1.
Белый шум , генерируется на частоте 16 кГц для каждого подкадра длительностью 5 мс посредством линейного конгруэнтного генератора (блок 100). Этот шум формируется во времени посредством применения коэффициентов усиления для каждого подкадра; эта операция разбивается на два этапа обработки (блоки 102, 106 или 109):
Вычисляют (блок 101) первый коэффициент, чтобы установить белый шум (блок 102) на том же уровне, что и возбуждение , , декодированное на частоте 12,8 кГц в нижнем диапазоне:
Можно отметить, что нормализация энергий выполняется путем сравнения блоков разного размера (64 для и 80 для ) без компенсации отличий в частотах дискретизации (12,8 или 16 кГц).
Затем получают возбуждение в верхнем диапазоне (блок 106 или 109) в виде:
где коэффициент усиления получают по-разному в зависимости от скорости цифрового потока. Если скорость цифрового потока текущего кадра <23,85 кбит/с, коэффициент усиления оценивают «вслепую» (то есть без дополнительной информации); в этом случае блок 103 фильтрует сигнал, декодированный в нижнем диапазоне, посредством фильтра высоких частот с частотой среза 400 Гц для получения сигнала , - данный фильтр высоких частот устраняет влияние очень низких частот, которые могут исказить оценку, выполненную в блоке 104 - затем «наклон» (индикатор крутизны спектра), обозначенный сигнала вычисляют с помощью нормированной автокорреляции (блок 104 ):
где - коэффициент усиления, применяемый в активных речевых (SP) кадрах, - коэффициент усиления, применяемый в неактивных речевых кадрах, относящихся к фоновому (BG) шуму, и - весовая функция, которая зависит от определения присутствия голосового сигнала (VAD). Понятно, что оценка наклона () позволяет адаптировать уровень верхнего диапазона в зависимости от спектрального характера сигнала; эта оценка особенно важна, когда крутизна спектра CELP декодированного сигнала такой, что средняя энергия уменьшается, когда частота увеличивается (в случае вокализованного сигнала, где близка к 1, поэтому соответственно снижается). Следует также отметить, что коэффициент в AMR-WB декодировании ограничивается для приема значений в диапазоне [0,1; 1,0]. Более того, для сигналов, энергия которых увеличивается при увеличении частоты ( близко к -1, близко к 2), коэффициент усиления обычно занижается.
При скорости 23,85 кбит/с корректирующее информационное сообщение передается на AMR-WB кодер и декодируется (блоки 107, 108) с целью уточнения коэффициента усиления, оцененного для каждого подкадра (4 бита каждые 5 мс или 0,8 кбит/с). Затем искусственное возбуждение фильтруется (блок 111) посредством LPC синтезирующего фильтра (блок 111) передаточной функции и работает на частоте дискретизации 16 кГц. Структура данного фильтра зависит от скорости передачи текущего кадра:
При скорости 6,6 кбит/с фильтр получают путем взвешивания посредством коэффициента = 0,9 фильтра LPC 20-го порядка , который «экстраполирует» фильтр LPC 16-го порядка , декодированный в нижнем диапазоне (12,8 кГц) - подробности экстраполяции параметров области ISF (спектральной частоты иммитанса) описываются в стандарте G.722.2 в разделе 6.3.2.1; в этом случае,
где = 0,6. Следует отметить, что в этом случае фильтр используется на частоте 16 кГц, что приводит к расширению (посредством пропорционального преобразования) частотной характеристики этого фильтра от [0;6,4 кГц] до [0;8 кГц].
В заключение, результат обрабатывается посредством полосового фильтра (блок 112) типа FIR («конечной импульсной характеристики»), чтобы сохранить только диапазон 6-7 кГц; при скорости 23,85 кбит/с низкочастотный фильтр также типа FIR (блок 113) добавляется к обработке для дополнительного подавления частот выше 7 кГц. В заключение, высокочастотный (HF) синтез добавляется (блок 130) к низкочастотному (LF) синтезу, полученному с помощью блоков 120-122 и подвергнутом повторной дискретизации с частотой 16 кГц (блок 123). Таким образом, даже если верхний диапазон расширяется в теории от 6,4 до 7 кГц в кодеке AMR-WB, HF синтез скорее содержится в полосе 6-7 кГц перед суммированием с LF синтезом.
В методе расширения диапазона кодека AMR-WB может быть выявлен ряд недостатков, в частности:
оценка коэффициентов усиления для каждого подкадра (блок 101, 103-105) не является оптимальной. Отчасти она основывается на выравнивании «абсолютной» энергии в расчете на один подкадр (блок 101) между сигналами на различных частотах: искусственным возбуждением на частоте 16 кГц (белый шум) и сигналом на частоте 12,8 кГц (декодированное возбуждение ACELP). Можно отметить, в частности, что этот подход неявно вызывает подавление возбуждения верхнего диапазона (в соотношении 12,8/16=0,8); фактически, это также будет отмечено, что восстановление предыскаженного сигнала не выполняется в верхнем диапазоне в кодеке AMR-WB, который неявно вызывает усиление относительно близкое к 0,6 (что соответствует значению частотной характеристики при частоте 6400 Гц). В действительности, коэффициенты 1/0,8 и 0,6 компенсируются приблизительно.
Что касается речи, 3GPP характеристические тесты кодека AMR-WB, задокументированные в 3GPP отчете TR 26.976, показали, что режим при скорости 23,85 кбит/с имеет менее хорошее качество, чем при скорости 23,05 кбит/с, его качество в действительности подобно режиму при скорости 15,85 кбит/с. Это показывает, в частности, что уровень искусственного HF сигнала необходимо контролировать очень аккуратно, так как качество ухудшается при скорости 23,85 кбит/с, при этом считается, что 4 бита на кадр наилучшим образом обеспечивают возможность аппроксимации энергии исходных высоких частот.
Фильтр низких частот на частоте 7 кГц (блок 113) вводит сдвиг почти 1 мс между нижним и верхним диапазонами, которые могут потенциально ухудшить качество определенных сигналов посредством незначительной десинхронизации двух диапазонов при скорости 23,85 кбит/с - данная десинхронизация может также приводить к проблемам при переключении скорости цифрового потока со скорости 23,85 кбит/с на другие режимы.
Пример расширения диапазона с помощью временного подхода описывается в 3GPP стандарте TS 26.290, описывающем кодек AMR-WB+ (стандартизованный в 2005 году). Данный пример показан на структурной схеме фиг. 2a (общая структурная схема) и 2b (предсказание коэффициента усиления по реакции коррекции уровня), которые соответствуют соответственно фиг. 16 и 10 3GPP спецификации TS 26.290.
В кодеке AMR-WB+ (монофонический) входной сигнал, подвергнутый дискретизации на частоте Fs (в Гц), делится на два отдельных частотных диапазона, в которых два фильтра LPC вычисляются и кодируются по отдельности:
другой фильтр LPC, обозначенный , в спектрально смешанном верхнем диапазоне (Fs/4-Fs/2) -его квантованная версия обозначается
Расширение диапазона выполняется в кодеке AMR-WB+, как подробно описано в разделах 5.4 (HF кодирование) и 6.2 (HF декодирование) 3GPP спецификации TS 26.290. Его принцип кратко изложен здесь: расширение заключается в использовании возбуждения, декодированного на низких частотах (возбужд. LFC) и в формировании данного возбуждения посредством временного коэффициента усиления в расчете на подкадр (блок 205) и синтезирующей фильтрации LPC (блок 207); кроме того реализуются операции обработки для увеличения (пост-обработки) возбуждения (блок 206) и сглаживания энергии восстановленного сигнала HF (блок 208), как показано на фиг. 2a.
Важно отметить, что данное расширение в AMR-WB+ требует передачи дополнительной информации: коэффициентов фильтра в 204 и временного формирующего усиления на подкадр (блок 201). Один конкретный признак алгоритма расширения диапазона в AMR-WB+ состоит в том, что коэффициент усиления на каждый подкадр определяется посредством прогнозирующего подхода; другими словами, коэффициенты усиления не кодируются непосредственно, а кодируются коррекции усиления, которые относятся к оценке коэффициента усиления, обозначенного . Эта оценка, , фактически соответствует коэффициенту выравнивания уровня между фильтрами и на частоте разделения между нижним диапазоном и верхним диапазоном (Fs/4). Вычисление коэффициента (блок 203) подробно описано на фиг.10 3GPP спецификации TS 26.290, воспроизведенной в данной заявке на фиг. 2b. Эта фигура не будет дополнительно подробно описываться в данной заявке. Просто следует отметить, что блоки 210-213 используются для вычисления энергии импульсной характеристики , в то же время напоминая, что фильтр моделирует спектрально смешанный верхний диапазон (из-за спектральных свойств разделения нижнего и верхнего диапазонов банка фильтров). Поскольку фильтры интерполируются по подкадрам, коэффициент усиления вычисляется только один раз за кадр, и он интерполируется по подкадрам.
Метод кодирования коэффициента усиления расширения диапазона в AMR-WB+, и, в частности, компенсация уровней фильтров LPC при их соединении является подходящим способом в контексте расширения диапазона посредством моделей LPC в нижнем и верхнем диапазоне, и можно отметить, что такая компенсация уровня между фильтрами LPC отсутствует в расширении диапазона кодека AMR-WB. Тем не менее, на практике можно проверить, что непосредственное выравнивание уровня между двумя фильтрами LPC на частоте разделения не является оптимальным способом и может вызвать завышенную оценку энергии в верхнем диапазоне и в некоторых случаях слышимые искажения; следует помнить, что фильтр LPC представляет собой спектральную огибающую, и принцип выравнивания уровня между двумя фильтрами LPC для данной частоты сводится к регулировке относительного уровня двух огибающих LPC. Тогда, такое выравнивание, выполняемое при частоте, погрешность которой не превышает эталонно допустимую, не обеспечивает полную непрерывность и общую согласованность энергии (по частоте) в области точки выравнивания, когда частотная огибающая сигнала значительно колеблется в данной области. Математический способ установления проблемы состоит в обнаружении того, что может обеспечиваться непрерывность между двумя кривыми, что приводит к их пересечению в одной и той же точке, но ничто не гарантирует того, что локальные свойства (последовательные производные) совпадают так, чтобы обеспечить более глобальную совместимость. Риск в обеспечении места непрерывности между огибающими LPC нижнего и верхнего диапазонов включает установку огибающей LPC в верхнем диапазоне на относительный уровень, который является слишком сильным или слишком слабым, причем случай слишком сильного уровня является более опасным, потому что он приводит к более раздражающим искажениям.
Кроме того, компенсация усиления в AMR-WB+ является первичным предсказанием коэффициента усиления, известного для кодера и декодера, и который предназначен для уменьшения скорости цифрового потока, необходимой для передачи информации усиления, масштабирующей сигнал возбуждения в верхнем диапазоне. Тогда, в контексте функционально совместимого улучшения кодирования/декодирования AMR-WB, нельзя изменить существующее кодирование коэффициентов усиления в отношении подкадров (0,8 кбит/с) расширения диапазона в режиме AMR-WB при скорости 23,85 кбит/с. Кроме того, для скоростей цифрового потока строго меньше 23,85 кбит/с, компенсация уровней фильтров LPC в нижнем и верхнем диапазонах может применяться в расширении диапазона декодирования, совместимого с AMR-WB, но опыт показывает, что данный единственный метод, получаемый из AMR-WB+ кодирования, применяемого без оптимизации, может создавать проблемы завышения оценки энергии верхнего диапазона (> 6 кГц).
Следовательно, существует потребность в улучшении компенсации коэффициентов усиления между фильтрами линейного предсказания различных диапазонов частот для расширения диапазона частот в кодеке типа AMR-WB или функционально совместимой версии этого кодека без какой-либо завышенной оценки энергии в диапазоне частот и без необходимости дополнительной информации из кодера.
Настоящее изобретение улучшает ситуацию.
В связи с этим, целью изобретения является способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Способ определения включает следующие этапы:
- определение фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- вычисление оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Таким образом, использование дополнительного фильтра более низкого порядка, чем фильтр первого диапазона частот, для выравнивания позволяет избежать завышения оценки энергии на высоких частотах, которые могут возникнуть в результате локальных колебаний огибающей, и которые могут нарушить выравнивание фильтров предсказания.
Таким образом, улучшается выравнивание коэффициентов усиления между фильтрами линейного предсказания первого и второго диапазонов частот.
В преимущественном применении надлежащим образом полученного оптимизированного масштабирующего коэффициента способ расширения диапазона включает этап применения оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.
В соответствующем варианте осуществления применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.
Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяют в один этап фильтрации для уменьшения сложности обработки.
В конкретном варианте осуществления коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.
Поэтому данный дополнительный фильтр более низкого порядка получают простым способом.
Кроме того, для получения устойчивого фильтра коэффициенты дополнительного фильтра изменяются в зависимости от критерия устойчивости дополнительного фильтра.
В конкретном варианте осуществления вычисление оптимизированного масштабного коэффициента включает следующие этапы:
- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;
- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;
- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.
Таким образом, оптимизированный масштабный коэффициент вычисляется таким образом, чтобы избежать раздражающих искажений, которые могут возникнуть в случае, если частотная характеристика фильтра более высокого порядка первого диапазона вблизи от общей частоты демонстрирует пик сигнала или точку минимума.
В конкретном варианте осуществления способ дополнительно включает следующие этапы, реализуемые на предопределенной скорости цифрового потока декодирования:
- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисленного в расчете на подкадр в зависимости от отношения энергии декодированного сигнала возбуждения и расширенного сигнала возбуждения;
- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;
- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.
Таким образом, дополнительная информация может использоваться для повышения качества расширенного сигнала для предопределенного режима работы.
Целью настоящего изобретения также является устройство для определения оптимизированного масштабного коэффициента, применяемого к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, причем устройство расширения диапазона содержит модуль для декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, модуль для генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль для фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Устройство определения содержит:
- модуль определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- модуль вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Целью настоящего изобретения является декодер, содержащий описанное устройство.
Целью настоящего изобретения является компьютерная программа, содержащая команды программного кода для реализации этапов описанного способа определения оптимизированного масштабного коэффициента при выполнении этих команд процессором.
Наконец, настоящее изобретение относится к носителю данных, который может считываться процессором, встроенным или нет в устройство определения оптимизированного масштабного коэффициента, по возможности съемному, хранящему компьютерную программу, реализующую способ определения оптимизированного масштабного коэффициента, как описано выше.
Другие признаки и преимущества настоящего изобретения станут более очевидными из нижеследующего описания, приведенного только в качестве неограничивающего примера и со ссылкой на прилагаемые графические материалы, на которых:
- на фиг. 1 изображена часть декодера типа AMR-WB, реализующего этапы расширения диапазона частот согласно уровню техники и как описано ранее;
- на фиг. 2a и 2b представлено кодирование верхнего диапазона в кодеке AMR-WB+ в соответствии с уровнем техники и как описано ранее;
- на фиг. 3 изображен декодер, который может взаимодействовать с кодированием AMR-WB, включающий устройство расширения диапазона, применяемое в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 4 изображено устройство определения масштабного коэффициента, оптимизированного посредством подкадра в зависимости от скорости цифрового потока, в соответствии с одним вариантом осуществления настоящего изобретения; и
- на фиг. 5а и 5b изображены частотные характеристики фильтров, применяемых для вычисления оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 6 изображены в форме блок-схемы основные этапы способа определения оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 7 изображен один вариант осуществления в частотной области устройства определения оптимизированного масштабного коэффициента в рамках расширения диапазона;
- на фиг. 8 изображена аппаратная реализация устройства определения оптимизированного масштабного коэффициента для расширения диапазона в соответствии с настоящим изобретением.
На фиг. 3 изображен примерный декодер, совместимый со стандартом AMR-WB/G.722.2, в котором присутствует расширение диапазона, включающее определение оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления способа согласно настоящему изобретению, реализованный посредством устройства расширения диапазона, показанного в виде блока 309.
В отличие от декодирования AMR-WB, которое работает с выходной частотой дискретизации 16 кГц, в данном случае рассматривается декодер, который может работать с выходным сигналом (синтеза) на частоте fs=8, 16, 32 или 48 кГц. Следует отметить, что в данном случае предполагается, что кодирование выполнено в соответствии с алгоритмом AMR-WB с внутренней частотой 12,8 кГц для кодирования CELP в нижнем диапазоне и кодировании посредством коэффициента усиления при скорости 23,85 кбит/с на подкадр на частоте 16 кГц; несмотря на то, что изобретение описывается здесь на уровне декодирования, при этом предполагается, что кодирование может также работать с входным сигналом на частоте fs=8, 16, 32 или 48 кГц, и подходящие операции передискретизации вне контекста настоящего изобретения применяются в кодировании в зависимости от величины fs. Следует отметить, что, когда fs=8 кГц, в случае декодирования, совместимого с AMR-WB, нет необходимости расширять нижний диапазон 0-6,4 кГц, потому что диапазон звуковых частот, восстановленный на частоте fs, ограничивается диапазоном 0-4000 Гц.
На фиг. 3 декодирование CELP (LF для низких частот) по-прежнему работает на внутренней частоте 12,8 кГц, как в AMR-WB, и расширение диапазона (HF для высоких частот), применяемое для изобретения, работает на частоте 16 кГц, и LF и HF синтезы объединяются (блок 312) на частоте fs после соответствующей передискретизации (блок 306 и внутренней обработки в блоке 311). В альтернативных вариантах осуществления объедение нижнего и верхнего диапазонов может выполняться на частоте 16 кГц после передискретизации нижнего диапазона от 12,8 до 16 кГц, перед передискретизацией объединенного сигнала на частоте fs.
Декодирование в соответствии с фиг. 3 зависит от режима AMR-WB (или скорости цифрового потока), связанного с текущим принятым кадром. В качестве индикатора, и без воздействия на блок 309, декодирование части CELP в нижнем диапазоне включает следующие этапы:
демультиплексирование кодированных параметров (блок 300) в случае правильно принятого кадра (bfi=0, где bfi - «признак поврежденного кадра» со значением 0 для принятого кадра и 1 для потерянного кадра);
декодирование параметров ISF с интерполяцией и преобразованием в коэффициенты LPC (блок 301), как описано в пункте 6.1 стандарта G.722.2;
декодирование возбуждения CELP (блок 302) с адаптивной и фиксированной частью для восстановления возбуждения (exc или ) в каждом подкадре длиной 64 на частоте 12,8 кГц:
в соответствии с обозначениями пункта 7.1.2.1 Рекомендации ITU-T G.718 декодера, функционально совместимого с AMR-WB кодером/декодером, в отношении декодирования CELP, где и - соответственно кодовые слова адаптивного и фиксированного словарей, и и - связанные декодированные коэффициенты усиления. Данное возбуждение применяется в адаптивном словаре следующего подкадра; затем оно подвергается пост-обработке и, как и в G.718, возбуждение (также обозначаемое exc) отличается от его модифицированной подвергнутой пост-обработке версии (также обозначаемой exc2), которая служит в качестве входного сигнала для синтезирующего фильтра в блоке 303;
узкополосную пост-обработку (блок 304) в соответствии с пунктом 7.3 G.718, если fs=8 кГц;
пост-обработку низких частот (называемую «постфильтром низкой звуковой частоты») (блок 306), подавляющую перекрестные гармонические помехи на низких частотах, как описано в пункте 7.14.1.1 в G.718. Данная обработка вводит задержку, которая учитывается при декодировании верхнего диапазона (> 6,4 кГц);
передискретизацию внутренней частоты 12,8 кГц на выходной частоте fs (блок 307). Возможен ряд вариантов осуществления. Без потери общности, здесь рассматривается, в качестве примера, что если fs=8 или 16 кГц, то передискретизация, описанная в пункте 7.6 в G.718 повторяется здесь, а если fs=32 или 48 кГц, то применяются дополнительные фильтры с конечной импульсной характеристикой (FIR);
вычисление параметров «порогового шумоподавителя» (блок 308), преимущественно проводимое, как описано в пункте 7.14.3 в G.718, чтобы «повысить» качество периодов паузы посредством снижения уровня.
В вариантах, которые могут реализовываться для изобретения, операции пост-обработки, применяемые к возбуждению могут изменяться (например, дисперсия фазы может увеличиваться) или данные операции пост-обработки могут быть расширены (например, может реализовываться снижение перекрестных гармонических помех), не влияя на характер расширения диапазона.
Следует отметить, что использование блоков 306, 308, 314 не является обязательным.
Кроме того, следует отметить, что декодирование нижнего диапазона, описанное выше, предполагает так называемый «активный» текущий кадр со скоростью цифрового потока от 6,6 до 23,85 кбит/с. Фактически, когда режим DTX активируется, определенные кадры могут кодироваться как «неактивные», и в этом случае можно либо передать дескриптор паузы (по 35 бит), либо не передавать ничего. В частности, следует напомнить, что кадр SID описывает ряд параметров: параметры ISF, усредненные по 8 кадрам, среднюю энергию по 8 кадрам, флаг «сглаживания» для восстановления нестационарного шума. Во всех случаях в декодере используется такая же модель декодирования, как и для активного кадра, с восстановлением возбуждения и фильтра LPC для текущего кадра, что дает возможность применять расширение диапазона даже к неактивным кадрам. То же самое замечание относится к декодированию «потерянных кадров» (или FEC, PLC), в которых применяется LPC модель.
В варианте осуществления, описанном здесь, и со ссылкой на фиг. 7, декодер дает возможность расширить декодированный нижний диапазон (50-6400 Гц, учитывающий 50 Гц высокочастотной фильтрации в декодере, 0-6400 Гц в общем случае) до расширенного диапазона, ширина которого изменяется в диапазоне приблизительно от 50-6900 Гц до 50-7700 Гц в зависимости от режима, реализованного в текущем кадре. Таким образом, его можно отнести к первому диапазону частот от 0 до 6400 Гц и второй диапазон частот от 6400 до 8000 Гц. В действительности, в предпочтительном варианте осуществления расширение возбуждения выполняется в частотной области в диапазоне от 5000 до 8000 Гц, чтобы обеспечить возможность полосовой фильтрации с шириной от 6000 до 6900 или 7700 Гц.
При скорости 23,85 кбит/с корректирующая информация HF усиления (0,8 кбит/с), передаваемая при 23,85 кбит/с, здесь декодируется. Ее использование подробно описано ниже со ссылкой на фиг. 4. Синтезирующую часть верхнего диапазона получают в блоке 309, представляющем устройство расширения диапазона, используемое для изобретения, и которое подробно изображено на фиг. 7 в варианте осуществления.
В целях совмещения декодированных нижних и верхних диапазонов, вводится задержка (блок 310) для синхронизации выходных сигналов блоков 306 и 307, и верхний диапазон, синтезируемый на частоте 16 кГц, подвергается передискретизации из 16 кГц в частоту fs (выходной сигнал блока 311). Значение задержки T зависит от того, как синтезируется сигнал верхнего диапазона, и от частоты fs как в пост-обработке низких частот. Таким образом, в целом, значение Т в блоке 310 должно регулироваться в соответствии с конкретной реализацией.
Затем нижние и верхние диапазоны объединяются (складываются) в блоке 312 и полученный синтез подвергается пост-обработке посредством высокочастотной фильтрации (типа IIR) 50 Гц порядка 2, коэффициенты которой зависят от частоты fs (блок 313) и выходной пост-обработки с необязательным применением «порогового шумоподавителя» способом, подобным G.718 (блок 314).
На фиг. 3 описывается один вариант осуществления устройства определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения в процессе расширения диапазона частот. Данное устройство входит в блок 309 расширения диапазона, описанный выше.
Таким образом, в блоке 400 из сигнала возбуждения, декодированного в первом диапазоне частот , выполняется расширение диапазона для получения расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот.
Следует отметить, что в данном случае оценка оптимизированного масштабного коэффициента в соответствии с изобретением не зависит от того, как получен сигнал. Одно условие относительно его энергии все-таки является важным. Действительно, энергия верхнего диапазона от 6000 до 8000 Гц должна быть на уровне, подобном энергии диапазона от 4000 до 6000 Гц декодированного сигнала возбуждения на выходе блока 302. Кроме того, поскольку в сигнале нижнего диапазона компенсируются предыскажения (блок 305), компенсация предыскажений должна также применяться к сигналу возбуждения верхнего диапазона либо посредством специального фильтра компенсации предыскажений, либо посредством умножения на постоянный коэффициент, который соответствует среднему коэффициенту подавления упомянутого фильтра. Это условие не распространяется на случай скорости цифрового потока 23,85 кбит/сек, при которой используется дополнительная информация, передаваемая кодером. В этом случае энергия сигнала верхнего диапазона возбуждения должна согласовываться с энергией сигнала, соответствующего кодеру, как описано ниже.
Расширение диапазона частот может, например, реализовываться таким же образом, как для декодера типа AMR-WB, описанного со ссылкой на фиг. 1, в блоках 100-102 из белого шума.
В другом варианте осуществления это расширение диапазона может выполняться из объединения белого шума и декодированного сигнала возбуждения, как показано и описано ниже для блоков 700-707 на фиг. 7.
Конечно для блока 400 могут предусматриваться и другие способы расширения диапазона частот при сохранении уровня энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, как описано ниже.
Кроме того, модуль расширения диапазона может быть также зависимым от декодера и может выполнять расширение диапазона для существующего звукового сигнала, хранящегося или передающегося на модуль расширения с анализом звукового сигнала, чтобы извлечь из него возбуждение и фильтр LPC. В этом случае, сигнал возбуждения на входе в модуль расширения больше не является декодированным сигналом, а является сигналом, извлеченным после анализа, подобно коэффициентам фильтра линейного предсказания первого диапазона частот, используемым в способе определения оптимизированного масштабного коэффициента в реализации настоящего изобретения.
В примере, показанном на фиг. 4, первым рассматривается случай скоростей цифрового потока <23,85 кбит/с, для которых определение оптимизированного масштабного коэффициента ограничивается блоком 401.
В этом случае вычисляется оптимизированный масштабный коэффициент, обозначаемый . В одном варианте осуществления данное вычисление выполняется преимущественно для каждого подкадра и заключается в выравнивании уровней частотных характеристик фильтров LPC и , применяемых для низких и высоких частот, как описано ниже со ссылкой на фиг. 7, с дополнительными мерами предосторожности, чтобы избежать случаев завышения оценки, которые могут привести к чрезмерной энергии синтезированного верхнего диапазона и, следовательно, генерировать слышимые искажения.
В альтернативном варианте осуществления можно будет оставить экстраполированный HF синтезирующий фильтр , как это реализовано в декодере AMR-WB или декодере, который может взаимодействовать с кодером/декодером AMR-WB, например, в соответствии с Рекомендацией ITU-T G.718, вместо фильтра . Затем согласно изобретению выполняется компенсация посредством фильтров и .
Определение оптимизированного масштабного коэффициента также выполняется посредством определения (в блоке 401а) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания в первом диапазоне частот , при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Затем вычисляется (в 401b) оптимизированный масштабный коэффициент в зависимости по меньшей мере от этих коэффициентов для применения к расширенному сигналу возбуждения .
Принцип определения оптимизированного масштабного коэффициента, реализованный в блоке 401, показан на фиг. 5а и 5b на конкретных примерах, полученных из сигналов, подвергнутых дискретизации на частоте 16 кГц; амплитудные значения частотных характеристик 3 фильтров, обозначенные ниже, как R, P, Q, вычисляются на общей частоте 6000 Гц (вертикальная пунктирная линия) в текущем подкадре, индекс m которых не упоминается здесь в обозначениях фильтров LPC, интерполированных по подкадру, для упрощения текста. Значение 6000 Гц выбирается потому, что оно близко к частоте Найквиста в нижнем диапазоне, то есть 6400 Гц. Предпочтительно не принимать данную частоту Найквиста для определения оптимизированного масштабного коэффициента. Действительно, энергия декодированного сигнала в области низких частот, как правило, уже подавляется на частоте 6400 Гц. Кроме того, расширение диапазона, описанное здесь, выполняется во втором диапазоне частот, называемым верхним диапазоном, который находится в пределах от 6000 до 8000 Гц. Следует отметить, что в вариантах осуществления настоящего изобретения может быть выбрана частота, отличная от 6000 Гц, без потери общности для определения оптимизированного масштабного коэффициента. Также можно будет рассмотреть случай, когда два фильтра LPC определяются для отдельных диапазонов (как в AMR-WB+). В этом случае, R, Р и Q будут вычисляться на частоте разделения.
На фиг. 5а и 5b изображено, как определяются величины R, P, Q.
Первый этап состоит в вычислении частотных характеристик и соответственно фильтра линейного предсказания первого диапазона частот (нижнего диапазона) и второго диапазона частот (верхнего диапазона) на частоте 6000 Гц. Сначала вычисляется следующее:
где - порядок декодированного фильтра LPC, , и соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, а именно:
Затем, подобным образом, вычисляется следующее:
где
px=py=0
rx=ry=0
for i=0 to 16
px=px+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33-i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33-i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ry)
где Aq[i]= соответствует коэффициентам (16-го порядка), Ap[i]= соответствует коэффициенту , sqrt() соответствует операции извлечения квадратного корня и таблицы exp_tab_p и exp_tab_q размером 34 содержат реальные и мнимые части комплексных экспонент, связанных с частотой 6000 Гц, с
Дополнительный фильтр предсказания получают, например, соответствующим усечением полинома до 2-го порядка.
Фактически, непосредственное усечение порядка приводит к получению фильтра , который может представлять собой проблему, потому что в основном ничто не может гарантировать, что этот фильтр 2-го порядка является устойчивым. Вследствие этого, в предпочтительном варианте осуществления выявляется устойчивость фильтра , и применяется фильтр , коэффициенты которого выводят из в зависимости от обнаружения неустойчивости. Более конкретно, задается следующее:
Устойчивость фильтра может быть проверена по-разному; в данном случае используется преобразование в области коэффициентов PARCOR (или коэффициентов отражения) посредством вычисления:
Устойчивость подтверждается, если , i=1, 2. Следовательно, значение условно изменяется до проверки устойчивости фильтра с помощью следующих этапов:
где min(.,.) и max(.,.) соответственно дают минимум и максимум из 2 операндов.
Следует отметить, что пороговые значения, 0,99 для и 0,6 для , могут регулироваться в вариантах изобретения. Следует напомнить, что первый коэффициент отражения характеризует крутизну спектра (или наклон) сигнала, смоделированного 1-м порядком; в изобретении величина насыщается при величине, близкой к границе устойчивости, с целью сохранения данного наклона и удержания наклона, подобного . Также следует напомнить, что второй коэффициент отражения характеризует резонансный уровень сигнала, смоделированного 2-м порядком; так как применение фильтра 2-го порядка имеет целью устранить влияние таких резонансов поблизости частоты 6000 Гц, значение ограничивается более сильно; данное ограничение устанавливается на уровне 0,6.
В заключение, в следствие этого, вычисляется частотная характеристика дополнительного фильтра:
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_tab_q[i];
qy=qy+As[i]*exp_tab_q[33-i];
end for
Q=1/sqrt(qx*qx+qy*qy)
Без потери общности можно вычислить коэффициенты фильтра 2-го порядка иным способом, например, путем применения к фильтру LPC 16-го порядка процедуры снижения порядка LPC, называемой «понижающей», описанной в J.D. Markel and A.H. Gray, Linear Prediction of Speech, Springer Verlag, 1976, или выполняя две итерации алгоритма Левинсона-Дарбина (или повышающего) из автокорреляций, вычисленных по сигналу, синтезированному (декодированному) на частоте 12,8 кГц и обработанными методом окна.
Для некоторых сигналов, величина , вычисленная из первых 3 декодированных коэффициентов LPC, лучше учитывает влияние крутизны спектра (или наклона) в спектре и позволяет избежать влияния «ложных» пиков или минимумов, близких к 6000 Гц, которые могут исказить или повысить значение величины , вычисленной из всех коэффициентов LPC.
В предпочтительном варианте осуществления оптимизированный масштабный коэффициент условно выводится из предварительно вычисленных величин R, P, Q, а именно:
Если наклон (вычисляется как в AMR-WB в блоке 104 посредством нормализованной автокорреляции в виде r(1)/r(0), где r(i) - автокорреляция) является отрицательным (наклон <0 как представлено на фиг. 5b), вычисление масштабного коэффициента происходит следующим образом:
чтобы избежать искажений вследствие слишком резких изменений энергии верхнего диапазона, к значению применяется сглаживание. В предпочтительном варианте осуществления экспоненциальное сглаживание выполняется с фиксированным во времени коэффициентом (0,5) в виде:
где соответствует величине в предыдущем подкадре, и коэффициент 0,5 оптимизирован эмпирически - очевидно, что коэффициент 0,5 может меняться для другого значения, и также возможны другие способы сглаживания. Следует отметить, что сглаживание позволяет снизить временные видоизменения и, следовательно, избежать искажений.
Затем оптимизированный масштабный коэффициент задается по формуле:
В альтернативном варианте осуществления возможна замена сглаживания на сглаживание таким образом, что:
Если наклон (вычисляется как в AMR-WB в блоке 104) является положительным (наклон> 0, как на фиг. 5a), вычисление масштабного коэффициента выполняется следующим образом:
величина сглаживается адаптивно во времени посредством более сильного сглаживания, когда низкая - как и в предыдущем случае это сглаживание позволяет сократить временные изменения и, следовательно, позволяет избежать искажений:
Затем оптимизированный масштабный коэффициент определяется по формуле:
В альтернативном варианте осуществления возможна замена сглаживания на сглаживание , как вычислено выше.
Минимум из R, P, Q в данном случае берется для того, чтобы избежать завышенной оценки масштабного коэффициента.
В одном варианте указанное выше условие, зависящее только от наклона, может расширяться, чтобы учитывать не только параметр наклона, но и другие параметры для того, чтобы уточнить решение. Кроме того, вычисление может регулироваться в соответствии с этими указанными дополнительными параметрами.
Примером дополнительного параметра является количество переходов через нуль (ZCR, частота переходов через нуль), которые можно определить как:
где
Параметр , как правило, дает результаты, аналогичные наклону. Удовлетворительным критерием классификации является отношение , вычисленного для синтезированного сигнала , к , вычисленному для сигнала возбуждения на частоте 12800 Гц. Это отношение находится в диапазоне от 0 до 1, где 0 означает, что сигнал имеет снижающийся спектр, а 1 означает, что спектр возрастает (что соответствует . В этом случае отношение > 0,5 соответствует случаю <0, а отношение <0,5 соответствует > 0.
В одном варианте возможно использование функции параметра , где - наклон, вычисленный для синтезированного сигнала , фильтруемого фильтром высоких частот с частотой среза, например, 4800 Гц; в этом случае характеристика от 6 до 8 кГц (применяемая на 16 кГц) соответствует взвешенной характеристике от 4,8 до 6,4 кГц. Так как имеет более уплощенную характеристику, необходимо компенсировать это изменение наклона. Затем в варианте осуществления задается функция масштабного коэффициента в соответствии с по: . и , таким образом, умножаются на , если >0 или на , если <0.
Теперь рассматривается случай скорости цифрового потока 23,85 кбит/с, для которого осуществляется коррекция усиления посредством блоков 403-408. Кроме того, данная коррекция усиления может быть объектом отдельного изобретения. В этом конкретном варианте осуществления в соответствии с изобретением, информация коррекции усиления, обозначенная , передаваемая посредством AMR-WB (совместимого) кодирования со скоростью цифрового потока 0,8 кбит/с используется для улучшения качества при 23,85 кбит/с.
В данном случае предполагается, что AMR-WB (совместимое) кодирование осуществляет квантование коррекции усиления по 4 битам, как описано в пункте G.722.2/5.11 Рекомендации ITU-T или, что эквивалентно, в пункте TS 26.190/5.11 спецификации 3GPP.
В кодере AMR-WB коррекция усиления вычисляется путем сравнения энергии исходного сигнала, подвергнутого дискретизации с частотой 16 кГц и отфильтрованного посредством полосового фильтра с полосой 6-7 кГц, , с энергией белого шума на частоте 16 кГц, отфильтрованного синтезирующим фильтром и полосовым фильтром с полосой 6-7 кГц (до фильтрации энергия шума устанавливается на уровне, подобном возбуждению на частоте 12,8 кГц), . Коэффициент усиления равен корню из отношения энергии исходного сигнала к энергии шума, разделенной на два. В одном возможном варианте осуществления возможна замена полосового фильтр на фильтр с более широкой полосой (например, от 6 до 7,6 кГц).
Для возможности применения информации усиления, полученной при 23,85 кбит/с (в блоке 407), важно приблизить возбуждение до уровня, близкого к тому, что ожидается от (совместимого) кодирования AMR-WB. Таким образом, в блоке 404 выполняется масштабирование сигнала возбуждения в соответствии с уравнением:
где коэффициент 5 в знаменателе предназначен для компенсации разности между пропускной способностью сигнала и сигнала , учитывая, что в кодировании AMR-WB возбуждение HF является белым шумом в диапазоне 0-8000 Гц.
Индекс из 4 битов на подкадр, обозначенный , посылаемый при скорости 23,85 кбит/с демультиплексируется из битового потока (блок 405) и декодируется блоком 406 следующим образом:
Таблица 1 (словарь усиления при скорости 23,85 кбит/с)
i | HP_gain(i) | I | HP_gain(i) |
0 | 0,110595703125000 | 8 | 0,342102050781250 |
1 | 0,142608642578125 | 9 | 0,372497558593750 |
2 | 0,170806884765625 | 10 | 0,408660888671875 |
3 | 0,197723388671875 | 11 | 0,453002929687500 |
4 | 0,226593017578125 | 12 | 0,511779785156250 |
5 | 0,255676269531250 | 13 | 0,599822998046875f |
6 | 0,284545898437500 | 14 | 0,741241455078125 |
7 | 0,313232421875000 | 15 | 0,998779296875000 |
В блоке 407 выполняется масштабирование сигнала возбуждения согласно следующему уравнению:
В заключение, энергия возбуждения регулируется на уровне текущего подкадра при следующих условиях (блок 408). Ниже приводится вычисление:
Числитель здесь представляет энергию сигнала верхнего диапазона, который был бы получен в режиме 23.05. Как объяснено выше, для скоростей цифрового потока <23,85 кбит/с, необходимо сохранить уровень энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, но это ограничение не является необходимым в случае скорости цифрового потока 23,85 кбит/с, так как в этом случае масштабируется коэффициентом усиления . Чтобы избежать операций двойного умножения, некоторые операции умножения, применяемые к сигналу в блоке 400, применяются в блоке 402 посредством умножения на . Значение зависит от алгоритма синтеза и должно регулироваться таким образом, чтобы уровень энергии между декодированным сигналом возбуждения в нижнем диапазоне и сигналом сохранялся.
В конкретном варианте осуществления, который описывается более подробно ниже со ссылкой на фиг. 7, , где - коэффициент усиления, который обеспечивает для сигнала то же самое отношение энергии на подкадр и энергии на кадр, что и для сигнала , и 0,6 соответствует среднему значению амплитуды частотной характеристики фильтра компенсации предыскажений в диапазоне от 5000 до 6400 Гц.
Предполагается, что в блоке 408 существует информация о наклоне сигнала нижнего диапазона - в предпочтительном варианте осуществления этот наклон вычисляется как в кодеке AMR-WB в соответствии с блоками 103 и 104, но для оценки наклона возможны и другие способы без изменения принципа изобретения.
В противном случае:
Следует отметить, что вычисление оптимизированного масштабного коэффициента, описанное в данном документе, в частности, в блоках 401 и 402, отличается от вышеуказанного выравнивания уровней фильтра, выполняемого в кодеке AMR-WB+, рядом аспектов:
Оптимизированный масштабный коэффициент вычисляется непосредственно из передаточных функций фильтров LPC без привлечения какой-либо временной фильтрации. Это упрощает способ.
Выравнивание выполняется предпочтительно на частоте, отличающейся от частоты Найквиста (6400 Гц), относящейся к нижнему диапазону. Действительно, моделирование LPC неявно представляет подавление сигнала, как правило, вызванное операциями передискретизации и, следовательно, частотная характеристика фильтра LPC может подвергаться снижению на частоте Найквиста, которая не является выбранной общей частотой.
При этом выравнивание опирается на фильтр низкого порядка (в данном случае 2-го порядка), в дополнение к 2 фильтрам, которые будут выравниваться. Этот дополнительный фильтр делает возможным предотвращение последствий локальных спектральных отклонений (пиков или минимумов), которые могут присутствовать на общей частоте для вычисления частотной характеристики фильтров предсказания.
Для блоков 403-408 преимущество настоящего изобретения состоит в том, что качество сигнала, декодированного при скорости 23,85 кбит/с, в соответствии с изобретением улучшается по сравнению с сигналом, декодированным при 23,05 кбит/с, что не является случаем в декодере AMR-WB. Фактически, данный аспект изобретения позволяет использовать дополнительную информацию (0,8 кбит/с), получаемую при скорости 23,85 кбит/с, но управляемым способом (блок 408), чтобы улучшить качество расширенного сигнала возбуждения при скорости цифрового потока 23,85.
Устройство определения оптимизированного масштабного коэффициента, как показано блоками 401-408 на фиг. 4, реализует способ определения оптимизированного масштабного коэффициента, описанный ниже со ссылкой на фиг. 6.
Основные этапы осуществляются в блоке 401.
Таким образом, расширенный сигнал возбуждения u HB (n) получают в способе E601 расширения диапазона частот, который включает этап декодирования или извлечения в первом диапазоне частот, называемом нижним диапазоном, сигнала возбуждения и параметров первого диапазона частот, таких как, например, коэффициенты фильтра линейного предсказания первого диапазона частот.
Этап E602 определяет фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр первого диапазона частот. Чтобы определить этот фильтр, применяются декодированные или извлеченные параметры первого диапазона частот.
В одном варианте осуществления данный этап выполняется усечением передаточной функции фильтра линейного предсказания нижнего диапазона для получения более низкого порядка фильтра, например, 2-го. Данные коэффициенты могут изменяться в зависимости от критерия устойчивости, как описано выше со ссылкой на фиг. 4.
Из коэффициентов дополнительного фильтра, определенных таким образом, реализуется этап E603 для вычисления оптимизированного масштабного коэффициента, который должен применяться к расширенному сигналу возбуждения. Данный оптимизированный масштабный коэффициент, например, вычисляется по частотной характеристике дополнительного фильтра на общей частоте между нижним диапазоном (первым диапазоном частот) и верхним диапазоном (вторым диапазоном частот). Минимальное значение может выбираться между частотной характеристикой данного фильтра и фильтров нижнего диапазона и верхнего диапазона.
Таким образом, это позволяет избежать завышенной оценки энергии, что могло бы иметь место в способах уровня техники.
Данный этап вычисления оптимизированного масштабного коэффициента, например, описывается выше со ссылкой на фиг. 4 и фиг. 5a и 5b.
Этап E604, выполняемый в блоке 402 или 409 (в зависимости от скорости декодирования цифрового потока) для расширения диапазона, применяет надлежащим образом вычисленный оптимизированный масштабный коэффициент к расширенному сигналу возбуждения таким образом, чтобы получить оптимизированный расширенный сигнал возбуждения u HB '(n).
В конкретном варианте осуществления устройство определения оптимизированного масштабного коэффициента 708 встраивается в устройство расширения диапазона, описанное со ссылкой на фиг. 7. Данное устройство определения оптимизированного масштабного коэффициента, показанное в виде блока 708, реализует способ определения оптимизированного масштабного коэффициента, описанный выше со ссылкой на фиг. 6.
В этом варианте осуществления блок 400 расширения диапазона на фиг. 4 содержит блоки 700-707 на фиг. 7, описанные далее.
Таким образом, на входе устройства расширения диапазона принимается сигнал нижнего диапазона возбуждения, декодированный или оцененный посредством анализа (). При расширении диапазона в данном случае применяется возбуждение, декодированное на частоте 12,8 кГц (exc2 или ) на выходе блока 302, показанного на фиг. 3.
Следует отметить, что в этом варианте осуществления генерация расширенного возбуждения с избыточной частотой дискретизации выполняется в диапазоне частот 5-8 кГц, следовательно, включающем второй диапазон частот (6,4-8 кГц), находящийся выше первого диапазона частот (0-6,4 кГц).
Таким образом, генерация расширенного сигнала возбуждения осуществляется по меньшей мере во втором диапазоне частот, но и в части первого диапазона частот.
Очевидно, что значения, определяющие эти диапазоны частот, могут быть разными в зависимости от декодера или устройства обработки, в котором применяется изобретение.
Для этого примерного варианта осуществления данный сигнал преобразуется для получения спектра сигнала возбуждения модулем 500 частотно-временного преобразования.
В конкретном варианте осуществления преобразование использует DCT-IV («дискретное косинусное преобразование» IV типа) (блок 700) на текущем кадре 20 мс (256 отсчетов), без применения окна, что сводится к непосредственному преобразованию с в соответствии со следующей формулой:
Следует отметить, что преобразование без обработки методом окна (или, что эквивалентно, преобразованию с неявным прямоугольным окном длины кадра) возможно потому, что обработка выполняется в области возбуждения, а не в области сигнала, таким образом, чтобы не были слышны искажения (влияния блоков), что является важным преимуществом данного варианта осуществления настоящего изобретения.
В данном варианте осуществления преобразование DCT-IV реализуется посредством FFT в соответствии с так называемым « Evolved DCT (EDCT)» алгоритмом, описанным в статье D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149, and implemented in the ITU-T standards G.718 Annex B and G.729.1 Annex E.
В вариантах осуществления изобретения и без ограничения общности преобразование DCT-IV может быть заменено другими краткосрочными частотно-временными преобразованиями той же длины в области возбуждения, такими как FFT («быстрое преобразование Фурье») или DCT-II (дискретное косинусное преобразование II типа). В альтернативном варианте возможна замена DCT-IV в кадре на преобразование с перекрытием-сложением и применением окна с длиной, большей, чем длина текущего кадра, например с помощью MDCT («модифицированного дискретного косинусного преобразования»). В этом случае задержка T в блоке 310, показанном на фиг. 3, должна быть должным образом отрегулирована (уменьшена) в зависимости от дополнительной задержки из-за анализа/синтеза посредством данного преобразования.
Затем спектр DCT 256 отсчетов, охватывающих диапазон 0-6400 Гц (на частоте 12,8 кГц), расширяется (блок 701) в спектр 320 отсчетов, охватывающих диапазон 0-8000 Гц (на частоте 16 кГц) в следующем виде:
где предпочтительно принимается, что start_band=160.
Блок 701 работает как модуль генерации расширенного сигнала возбуждения с избыточной частотой дискретизации и выполняет передискретизацию с частоты 12,8 до 16 кГц в частотной области посредством добавления ¼ отсчетов () в спектр, при этом отношение 16 к 12,8 составляет 5/4.
Кроме того, блок 701 выполняет неявную высокочастотную фильтрацию в диапазоне 0-5000 Гц, так как первые 200 отсчетов устанавливаются на ноль; как описано ниже, данная высокочастотная фильтрация также дополняется частью монотонно возрастающего затухания спектральных значений индексов в диапазоне 5000-6400 Гц; это монотонно возрастающее затухание реализуется в блоке 704, но может быть выполняться отдельно вне блока 704. Равносильно тому, что и в вариантах настоящего изобретения, внедрение высокочастотной фильтрации, разделенной на блоки коэффициентов индекса , установленных в ноль, затухающих коэффициентов в преобразованной области, можно будет, в силу вышесказанного, выполнять в ходе одного этапа.
В этом примерном варианте осуществления и в соответствии с определением , следует отметить, что диапазон 5000-6000 Гц (что соответствует индексам ) копируется из диапазона 5000-6000 Гц . Данный подход позволяет сохранить исходный спектр в этом диапазоне и позволяет избежать введения искажения в диапазоне 5000-6000 Гц при сложении синтеза HF с синтезом LF, в частности, фаза сигнала (неявно представленная в обрасти DCT-IV) в данном диапазоне сохраняется.
Диапазон 6000-8000 Гц в данном случае определяется посредством копирования диапазона 4000-6000 Гц , поскольку значение start_band предпочтительно устанавливается равным 160.
В одном варианте варианта осуществления значение start_band может подстраиваться вблизи значения 160. Подробности подстройки значения start_band в данном документе не описываются, потому что они выходят за рамки изобретения без изменения его объема.
Для некоторых широкополосных сигналов (подвергнутых дискретизации на частоте 16 кГц) верхний диапазон (> 6 кГц), может быть зашумленным, гармоническим или содержать смесь шума и гармоник. Кроме того, уровень гармоничности в диапазоне 6000-8000 Гц полосы, как правило, коррелирует с уровнем в более низкочастотных диапазонах. Таким образом, блок 702 генерации шума выполняет генерацию шума в частотной области, U HBN(k) для (80 отсчетов), что соответствует второму диапазону частот, называемому высокочастотным, с целью последующего объединения этого шума со спектром в блоке 703.
В конкретном варианте осуществления шум (в диапазоне 6000-8000 Гц) генерируется псевдослучайно посредством линейного конгруэнтного генератора на 16 бит:
с правилом, что в текущем кадре соответствует значению предыдущего кадра. В вариантах изобретения возможна замена данной генерации шума посредством других способов.
Блок 703 объединения может быть получен различными путями. В предпочтительном варианте адаптивное аддитивное микширование учитывается в следующем виде:
при = 0,01, и коэффициент (между 0 и 1) регулируется в зависимости от параметров, оцененных из декодированного нижнего диапазона, и коэффициент (между 0 и 1) зависит от .
В предпочтительном варианте осуществления энергия шума вычисляется в трех диапазонах: 2000-4000 Гц, 4000-6000 Гц и 6000-8000 Гц, с
где
и - множество индексов , для которых коэффициент индекса классифицируется как связанный с шумом. Данное множество может, например, быть получено посредством выявления локальных пиков в , что проверяет , и посредством учета того, что эти лучи не связаны с шумом, т. е. (посредством применения отрицания предыдущего условия):
Следует отметить, что возможны другие способы вычисления энергии шума, например, посредством медианного значения спектра на рассматриваемом диапазоне или посредством применения сглаживания к каждому частотному лучу перед вычислением энергии в расчете на диапазон.
устанавливается таким образом, что отношение энергии шума в диапазонах 4-6 кГц и 6-8 кГц является таким же, что и в диапазонах 2-4 кГц и 4-6 кГц:
где
В вариантах изобретения вычисление возможно заменить другими способами. Например, как вариант, возможно извлечение (вычисление) различных параметров (или «признаков»), характеризующих сигнал в нижнем диапазоне, включая параметр «наклон», подобно вычисляемому в кодеке AMR-WB, и коэффициент будет оцениваться в зависимости от линейной регрессии этих различных параметров посредством ограничения его значения между 0 и 1. Линейную регрессию, например, можно оценить контролируемым образом посредством оценки коэффициента путем замены оригинального верхнего диапазона в обучающей базе. Следует отметить, что то, каким образом вычисляется , не ограничивает сущность изобретения.
В предпочтительном варианте осуществления принимается следующее:
с целью сохранения энергии расширенного сигнала после микширования.
В одном варианте коэффициенты и могут быть адаптированы для принятия во внимание того факта, что шум, введенный в заданный диапазон сигнала, как правило, воспринимается сильнее, чем гармонический сигнал с той же энергией в том же диапазоне. Таким образом, возможно изменение коэффициентов и следующим образом:
где - убывающая функция от , например, , , , , ограниченные от 0,3 до 1. Следует отметить, что после умножения на , , так что энергия сигнала ниже, чем энергия (разность энергий зависит от , чем больше добавляется шума, тем больше подавляется энергия).
В других вариантах изобретения можно принять:
что дает возможность сохранить уровень амплитуды (при объединении сигналов одинакового знака); однако данный вариант имеет недостаток, в результате которого общая энергия (на уровне ) не является монотонной, как функция .
Таким образом, следует отметить, что в блоке 703 выполняются действия, эквивалентные блоку 101, приведенному на фиг. 1, для нормализации белого шума в зависимости от возбуждения, который, в отличие от данного случая, уже расширен в частотной области до частоты 16 кГц; кроме того, микширование ограничивается диапазоном 6000-8000 Гц.
В простом варианте можно считать реализацию блока 703, в котором спектры, или выбираются (переключаются) адаптивно, что сводится к допущению значений только 0 или 1 для α; этот подход сводится к классификации типа возбуждения для генерации в диапазоне 6000-8000 Гц.
В блоке 704 необязательно выполняется двойная операция применения частотной характеристики полосового фильтра и фильтрации предыскажений в частотной области.
В одном варианте изобретения фильтрация предыскажений может выполняться во временной области после блока 705 до блока 700; однако, в этом случае полосовая фильтрация, выполняемая в блоке 704, может оставить определенные низкочастотные компоненты очень низких уровней, которые усиливаются посредством компенсации предыскажений, что может несущественно изменять декодированный нижний диапазон. По этой причине, в данном случае предпочтительно выполнять компенсацию предыскажений в частотной области. В предпочтительном варианте осуществления коэффициенты индекса устанавливаются равными нулю, таким образом, компенсация предыскажений ограничивается старшими коэффициентами.
Сначала компенсируются предыскажения возбуждения в соответствии со следующем уравнением:
где - частотная характеристика фильтра в ограниченном дискретном диапазоне частот. Принимая во внимание дискретные (нечетные) частоты DCT-IV, определяется в данном случае как:
где
В случае, когда применяется преобразование, отличное от DCT-IV, определение можно регулировать (например, для четных частот).
Следует отметить, что компенсация предыскажений применяется в два этапа для , соответствующий диапазону частот 5000-6400 Гц, где характеристика применяется как на частоте 12,8 кГц, и , соответствующий диапазону частот 6400-8000 Гц, где характеристика расширяется от частоты 16 кГц до постоянного значения в диапазоне 6,4-8 кГц.
Следует отметить, что в кодеке AMR-WB для HF синтеза не компенсируются предыскажения.
В варианте осуществления, представленном здесь, для высокочастотного сигнала, наоборот, компенсируются предыскажения для того, чтобы ввести его в область, согласованную с низкочастотным сигналом (0-6,4 кГц), который выходит из блока 305, приведенного на фиг. 3. Это важно для оценки и последующей регулировки энергии синтеза HF.
В одном варианте варианта осуществления с целью уменьшения сложности можно установить равным постоянному значению, независимому от , принимая, например, что примерно соответствует среднему значению для в условиях описанного выше варианта осуществления.
В другом варианте варианта осуществления устройства расширения компенсация предыскажений может выполняться равноценным образом во временной области после обратного DCT.
В дополнение к компенсации предыскажений применяется полосовая фильтрация с двумя отдельными частями: одна - фиксированная высокочастотная, другая - адаптивная низкочастотная (функция скорости цифрового потока).
Данная фильтрация выполняется в частотной области.
В предпочтительном варианте осуществления частичная характеристика фильтра низких частот вычисляется в частотной области следующим образом:
где = 60 при скорости 6,6 кбит/с, 40 при скорости 8,85 кбит/с и 20 при скоростях цифрового потока > 8,85 бит/с.
Затем полосовой фильтр применяется в виде:
Таблица 2
K | g hp (k) | K | g hp (k) | K | g hp (k) | K | g hp (k) |
0 | 0,001622428 | 14 | 0,114057967 | 28 | 0,403990611 | 42 | 0,776551214 |
1 | 0,004717458 | 15 | 0,128865425 | 29 | 0,430149896 | 43 | 0,800503267 |
2 | 0,008410494 | 16 | 0,144662643 | 30 | 0,456722014 | 44 | 0,823611104 |
3 | 0,012747280 | 17 | 0,161445005 | 31 | 0,483628433 | 45 | 0,845788355 |
4 | 0,017772424 | 18 | 0,179202219 | 32 | 0,510787115 | 46 | 0,866951597 |
5 | 0,023528982 | 19 | 0,197918220 | 33 | 0,538112915 | 47 | 0,887020781 |
6 | 0,030058032 | 20 | 0,217571104 | 34 | 0,565518011 | 48 | 0,905919644 |
7 | 0,037398264 | 21 | 0,238133114 | 35 | 0,592912340 | 49 | 0,923576092 |
8 | 0,045585564 | 22 | 0,259570657 | 36 | 0,620204057 | 50 | 0,939922577 |
9 | 0,054652620 | 23 | 0,281844373 | 37 | 0,647300005 | 51 | 0,954896429 |
10 | 0,064628539 | 24 | 0,304909235 | 38 | 0,674106188 | 52 | 0,968440179 |
11 | 0,075538482 | 25 | 0,328714699 | 39 | 0,700528260 | 53 | 0,980501849 |
12 | 0,087403328 | 26 | 0,353204886 | 40 | 0,726472003 | 54 | 0,991035206 |
13 | 0,100239356 | 27 | 0,378318805 | 41 | 0,751843820 | 55 | 1,000000000 |
Следует отметить, что в вариантах изобретения значения могут изменяться при сохранении монотонно возрастающего затухания. Аналогичным образом, низкочастотная фильтрация с переменной полосой пропускания может регулироваться с помощью значений или частотной среды, которые отличаются, не изменяя принцип этого этапа фильтрации.
Кроме того, следует отметить, что полосовая фильтрация может адаптироваться посредством определения единого этапа фильтрации, объединяющего высокочастотную и низкочастотную фильтрацию.
В другом варианте осуществления полосовая фильтрация может выполняться равноценным образом во временной области (как и в блоке 112 на фиг. 1) с различными коэффициентами фильтра в соответствии со скоростью цифрового потока после этапа обратного DCT. Тем не менее, следует отметить, что предпочтительно выполнить этот этап непосредственно в частотной области, так как фильтрация выполняется в области возбуждения LPC и, следовательно, проблемы циклической свертки и краевых эффектов очень ограничены в этой области.
Кроме того, следует отметить, что, в случае скорости цифрового потока 23,85 кбит/с компенсация предыскажений возбуждения не выполняется, чтобы оставаться в соответствии с тем способом, в котором коррекция усиления вычисляется в кодере AMR-WB, и чтобы избежать операций двойного умножения. В этом случае в блоке 704 выполняется только низкочастотная фильтрация.
В блоке 705 обратного преобразования выполняется обратное DCT на 320 отсчетах, чтобы найти высокочастотное возбуждение, подвергнутое дискретизации с частотой 16 кГц. Его реализация идентична блоку 700, потому что DCT-IV является ортонормированным, за исключением того, что длина преобразования составляет 320 вместо 256, и получается следующее:
Данное возбуждение, подвергнутое дискретизации с частотой 16 кГц, затем необязательно масштабируется посредством коэффициентов усиления, определенных для каждого подкадра 80 отсчетов (блок 707).
В предпочтительном варианте осуществления коэффициент усиления gHB1(m) сначала вычисляется (этап 706) в расчете на подкадр посредством отношений энергий подкадров таким образом, что в каждом подкадре индекса m=0, 1, 2 или 3 текущего кадра:
где
что показывает, что в сигнале обеспечивается такое же отношение энергии на подкадр и энергии на кадр, как в сигнале .
В блоке 707 выполняется масштабирование объединенного сигнала в соответствии со следующим уравнением:
Следует отметить, что реализация блока 706 отличается от блока 101, приведенного на фиг. 1, так как энергия на текущем уровне кадра учитывается в дополнение к этому подкадру. Это обеспечивает отношение энергии каждого подкадра в зависимости от энергии кадра. Следовательно, сравниваются отношения энергий (или относительные энергии), а не абсолютные энергии нижнего диапазона и верхнего диапазона.
Таким образом, данный этап масштабирования позволяет сохранять в верхнем диапазоне отношение энергий подкадра и кадра таким же образом, как в нижнем диапазоне.
В данном случае следует отметить, что в случае скорости цифрового потока 23,85 кбит/с коэффициенты усиления вычисляются, но применяются в следующем этапе, как описано со ссылкой на фиг. 4, чтобы избежать операций двойного умножения. В этом случае .
В соответствии с изобретением затем в блоке 708 выполняется вычисление масштабного коэффициента на подкадр сигнала (этапы E602-E603, показанные на фиг. 6), как описано выше со ссылкой на фиг. 6 и подробно изображено на фиг. 4 и 5.
В заключение, скорректированное возбуждение фильтруется посредством модуля 710 фильтрации, что может выполняться в данном случае посредством принятия в качестве передаточной функции , где = 0,9 при скорости 6,6 кбит/с и = 0,6 при других скоростях цифрового потока, что ограничивает порядок фильтра 16-м порядком.
В одном варианте этот фильтр можно будет выполнять таким же образом, как описано для блока 111 на фиг. 1 AMR-WB декодера, но порядок фильтра изменятся до 20 при скорости цифрового потока 6,6, что не существенно меняет качество синтезированного сигнала. В другой варианте возможно выполнение синтезирующей фильтрации LPC в частотной области после вычисления частотной характеристики фильтра, реализованного в блоке 710.
В альтернативном варианте осуществления этап фильтрации посредством фильтра 710 линейного предсказания для второго диапазона частот объединяется с применением оптимизированного масштабного коэффициента, что позволяет снизить сложность обработки. Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяются в единый этап фильтрации для снижения сложности обработки.
В альтернативных вариантах осуществления настоящего изобретения кодирование нижнего диапазона (0-6,4 кГц) может заменяться кодером CELP, отличающимся от того, что используется в AMR-WB, таким как, например, кодер CELP в G.718 при скорости 8 кбит/с. Без потери общности могли бы применяться другие широкополосные кодеры или кодеры, работающие на частотах выше 16 кГц, в которых кодирование нижнего диапазона производится на внутренней частоте 12,8 кГц. Кроме того, очевидно, что изобретение может быть адаптировано к частотами дискретизации, отличающимся от частоты 12,8 кГц, когда низкочастотный кодер работает с частотой дискретизации ниже, чем у исходного или восстановленного сигнала. Когда при низкочастотном декодировании не используется линейное предсказание, отсутствует сигнал возбуждения для расширения, в этом случае возможно выполнение анализа LPC сигнала, восстановленного в текущем кадре, и возбуждение LPC будет вычисляться таким образом, чтобы была возможность применения изобретения.
В заключение, в другом варианте изобретения возбуждение () подвергается передискретизации, например, посредством линейной интерполяции или кубического «сплайна», из частоты 12,8 в 16 кГц перед преобразованием (например, DCT-IV) длины 320. Недостатком данного видоизменения является то, что оно является более сложными, поскольку преобразование (DCT-IV) возбуждения вычисляется в дальнейшем по большей длине и передискретизация не выполняется в области преобразования.
Кроме того, в вариантах изобретения все вычисления, необходимые для оценки коэффициентов усиления (, , , ,...), могут выполняться в логарифмической области.
В вариантах диапазона расширения возбуждение в нижнем диапазоне и фильтр LPC будут оцениваться в каждом кадре посредством анализа LPC сигнала нижнего диапазона, для которого диапазон должен быть расширен. Затем сигнал возбуждения нижнего диапазона извлекается посредством анализа звукового сигнала.
В возможном варианте осуществления этого варианта звуковой сигнал нижнего диапазона подвергается передискретизации перед этапом извлечения возбуждения таким образом, что возбуждение, извлеченное из звукового сигнала (посредством линейного предсказания) уже подвергнуто передискретизации.
Расширение диапазона, показанное на фиг. 7, применяется в данном случае к нижнему диапазону, который не декодируется, но анализируется.
Фиг. 8 представляет примерный физический вариант осуществления устройства определения оптимизированного масштабного коэффициента 800 в соответствии с изобретением. Последнее может быть неотъемлемой частью декодера сигнала звуковой частоты или единицы оборудования, принимающей сигналы звуковой частоты, декодируемые или нет.
Данный тип устройства содержит процессор PROC, взаимодействующий с блоком памяти BM, содержащим запоминающее и/или оперативное запоминающее устройство MEM.
Такое устройство содержит входной модуль E, подходящий для приема звукового сигнала возбуждения, декодированного или извлеченного в первом диапазоне частот, называемом нижним диапазоном ( или ), и параметров синтезирующего фильтра линейного предсказания (). Оно содержит модуль S вывода, подходящий для передачи синтезированного и оптимизированного высокочастотного сигнала (uHB'(n)), например, в фильтрующий модуль, как блок 710 на фиг. 7, или в модуль передискретизации, как модуль 311 на фиг. 3.
Блок памяти может преимущественно содержать компьютерную программу, содержащую команды программного кода для реализации этапов способа определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в пределах сущности настоящего изобретения, когда эти команды выполняются процессором PROC, и, в частности, этапы определения (E602) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот, и вычисления (E603) оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Как правило, описание на фиг. 6 повторяет этапы алгоритма такой компьютерной программы. Компьютерная программа также может храниться в системе памяти, которая может считываться считывателем устройства или которая может загружаться в его пространство памяти.
Память MEM хранит, как правило, все данные, необходимые для реализации способа.
В возможном варианте осуществления описанное таким образом устройство также может включать функции для применения оптимизированного масштабного коэффициента в расширенном сигнале возбуждения, расширения диапазона частот, декодирования низкой частоты и других функций обработки, описанных, например, на фигурах 3 и 4 в дополнение к функциям определения оптимизированного масштабного коэффициента в соответствии с изобретением.
Claims (23)
1. Способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона частот сигнала звуковой частоты включает: этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом способ содержит этапы:
вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом.
2. Способ по п. 1, отличающийся тем, что экспоненциальное сглаживание представлено в форме:
Rsmoothed=0,5 Rprecomputed+0,5 Rprev,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
3. Способ по п. 1, отличающийся тем, что набор способов сглаживания дополнительно содержит способ сглаживания, являющийся адаптивным во времени.
4. Способ по п. 3, отличающийся тем, что сглаживание является более сильным для меньших значений R.
5. Способ по п. 3 или 4, отличающийся тем, что адаптивное сглаживание представлено в форме:
Rsmoothed=(1-α)Rprecomputed+α.Rprev, где α=1-Rprecomputed^2,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
6. Способ по п. 1 или 2, дополнительно содержащий этап определения оптимизированного масштабного коэффициента, и этот этап определения оптимизированного масштабного коэффициента содержит вычисление
max(min(Rsmoothed, Q),P)/P,
где P - частотная характеристика фильтра линейного предсказания по второму диапазону частот, причем второй диапазон частот является выше, чем первый диапазон частот, Q - частотная характеристика дополнительного фильтра, полученного усечением полинома фильтра линейного предсказания.
7. Способ по п.2 или 5, отличающийся тем, что
8. Устройство для определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в устройстве для расширения диапазона частот сигнала звуковой частоты,
причем устройство для расширения диапазона частот сигнала звуковой частоты содержит: блок декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, блок генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и блок фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом устройство содержит:
процессор для вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
блок сглаживания, выполненный с возможностью сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1356909 | 2013-07-12 | ||
FR1356909A FR3008533A1 (fr) | 2013-07-12 | 2013-07-12 | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016104466A Division RU2668058C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017144515A RU2017144515A (ru) | 2019-02-15 |
RU2017144515A3 RU2017144515A3 (ru) | 2021-04-19 |
RU2756435C2 true RU2756435C2 (ru) | 2021-09-30 |
Family
ID=49753286
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016104466A RU2668058C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
RU2017144519A RU2756434C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
RU2017144515A RU2756435C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
RU2017144518A RU2751104C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016104466A RU2668058C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
RU2017144519A RU2756434C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017144518A RU2751104C2 (ru) | 2013-07-12 | 2014-07-04 | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты |
Country Status (11)
Country | Link |
---|---|
US (8) | US10446163B2 (ru) |
EP (1) | EP3020043B1 (ru) |
JP (4) | JP6487429B2 (ru) |
KR (4) | KR102423081B1 (ru) |
CN (4) | CN107492385B (ru) |
BR (4) | BR122017018556B1 (ru) |
CA (4) | CA2917795C (ru) |
FR (1) | FR3008533A1 (ru) |
MX (1) | MX354394B (ru) |
RU (4) | RU2668058C2 (ru) |
WO (1) | WO2015004373A1 (ru) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
US9830921B2 (en) * | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
US10681486B2 (en) * | 2017-10-18 | 2020-06-09 | Htc Corporation | Method, electronic device and recording medium for obtaining Hi-Res audio transfer information |
TWI834582B (zh) * | 2018-01-26 | 2024-03-01 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
CN110660409A (zh) * | 2018-06-29 | 2020-01-07 | 华为技术有限公司 | 一种扩频的方法及装置 |
JP2022527111A (ja) * | 2019-04-03 | 2022-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | スケーラブル音声シーンメディアサーバ |
CN115136236A (zh) * | 2020-02-25 | 2022-09-30 | 索尼集团公司 | 信号处理装置、信号处理方法和程序 |
RU2747368C1 (ru) * | 2020-07-13 | 2021-05-04 | федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Способ мониторинга и управления информационной безопасностью подвижной сети связи |
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044527A1 (en) * | 2002-09-04 | 2004-03-04 | Microsoft Corporation | Quantization and inverse quantization for audio |
US20080027709A1 (en) * | 2006-07-28 | 2008-01-31 | Baumgarte Frank M | Determining scale factor values in encoding audio data with AAC |
EP1400955B1 (en) * | 2002-09-04 | 2008-12-17 | Microsoft Corporation | Quantization and inverse quantization for audio signals |
US20110125506A1 (en) * | 2009-11-26 | 2011-05-26 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
RU2437172C1 (ru) * | 2007-11-04 | 2011-12-20 | Квэлкомм Инкорпорейтед | Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE502244C2 (sv) * | 1993-06-11 | 1995-09-25 | Ericsson Telefon Ab L M | Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation |
JP3189614B2 (ja) * | 1995-03-13 | 2001-07-16 | 松下電器産業株式会社 | 音声帯域拡大装置 |
US6002352A (en) * | 1997-06-24 | 1999-12-14 | International Business Machines Corporation | Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
JP4792613B2 (ja) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
AUPR433901A0 (en) * | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
US6732071B2 (en) * | 2001-09-27 | 2004-05-04 | Intel Corporation | Method, apparatus, and system for efficient rate control in audio encoding |
US7353168B2 (en) * | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
WO2003038812A1 (en) * | 2001-11-02 | 2003-05-08 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device |
AU2003281128A1 (en) * | 2002-07-16 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
CN100507485C (zh) * | 2003-10-23 | 2009-07-01 | 松下电器产业株式会社 | 频谱编码装置和频谱解码装置 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
EP1914722B1 (en) * | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
WO2006103488A1 (en) * | 2005-03-30 | 2006-10-05 | Nokia Corporation | Source coding and/or decoding |
AU2006232364B2 (en) * | 2005-04-01 | 2010-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
TWI317933B (en) * | 2005-04-22 | 2009-12-01 | Qualcomm Inc | Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8260620B2 (en) * | 2006-02-14 | 2012-09-04 | France Telecom | Device for perceptual weighting in audio encoding/decoding |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
KR101565919B1 (ko) | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
KR100905585B1 (ko) * | 2007-03-02 | 2009-07-02 | 삼성전자주식회사 | 음성신호의 대역폭 확장 제어 방법 및 장치 |
US8392198B1 (en) * | 2007-04-03 | 2013-03-05 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Split-band speech compression based on loudness estimation |
RU2439721C2 (ru) * | 2007-06-11 | 2012-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
CN101281748B (zh) * | 2008-05-14 | 2011-06-15 | 武汉大学 | 用编码索引实现的空缺子带填充方法及编码索引生成方法 |
CA2729752C (en) * | 2008-07-10 | 2018-06-05 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
KR101411759B1 (ko) * | 2009-10-20 | 2014-06-25 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 |
CA2683983A1 (en) | 2009-10-21 | 2011-04-21 | Carbon Solutions Inc. | Stabilization and remote recovery of acid gas fractions from sour wellsite gas |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8455888B2 (en) * | 2010-05-20 | 2013-06-04 | Industrial Technology Research Institute | Light emitting diode module, and light emitting diode lamp |
US9294060B2 (en) * | 2010-05-25 | 2016-03-22 | Nokia Technologies Oy | Bandwidth extender |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
EP3089164A1 (en) * | 2011-11-02 | 2016-11-02 | Telefonaktiebolaget LM Ericsson (publ) | Generation of a high band extension of a bandwidth extended audio signal |
EP2774148B1 (en) * | 2011-11-03 | 2014-12-24 | Telefonaktiebolaget LM Ericsson (PUBL) | Bandwidth extension of audio signals |
US8909539B2 (en) * | 2011-12-07 | 2014-12-09 | Gwangju Institute Of Science And Technology | Method and device for extending bandwidth of speech signal |
CN102930872A (zh) * | 2012-11-05 | 2013-02-13 | 深圳广晟信源技术有限公司 | 用于宽带语音解码中基音增强后处理的方法及装置 |
ES2924427T3 (es) * | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
US9542955B2 (en) * | 2014-03-31 | 2017-01-10 | Qualcomm Incorporated | High-band signal coding using multiple sub-bands |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
JP2017145792A (ja) | 2016-02-19 | 2017-08-24 | 株式会社ケーヒン | インテークマニホールドにおけるセンサ取付構造 |
RU2636700C1 (ru) * | 2016-03-18 | 2017-11-27 | Акционерное общество "Лаборатория Касперского" | Способ устранения уязвимостей устройств, имеющих выход в Интернет |
TWI596952B (zh) * | 2016-03-21 | 2017-08-21 | 固昌通訊股份有限公司 | 耳道式耳機 |
-
2013
- 2013-07-12 FR FR1356909A patent/FR3008533A1/fr active Pending
-
2014
- 2014-07-04 BR BR122017018556-0A patent/BR122017018556B1/pt active IP Right Grant
- 2014-07-04 CA CA2917795A patent/CA2917795C/en active Active
- 2014-07-04 CA CA3108924A patent/CA3108924A1/en active Pending
- 2014-07-04 CN CN201710730367.2A patent/CN107492385B/zh active Active
- 2014-07-04 JP JP2016524867A patent/JP6487429B2/ja active Active
- 2014-07-04 CN CN201710730366.8A patent/CN107527629B/zh active Active
- 2014-07-04 CA CA3108921A patent/CA3108921C/en active Active
- 2014-07-04 RU RU2016104466A patent/RU2668058C2/ru active
- 2014-07-04 BR BR122017018553-5A patent/BR122017018553B1/pt active IP Right Grant
- 2014-07-04 MX MX2016000255A patent/MX354394B/es active IP Right Grant
- 2014-07-04 KR KR1020177024526A patent/KR102423081B1/ko active IP Right Grant
- 2014-07-04 WO PCT/FR2014/051720 patent/WO2015004373A1/fr active Application Filing
- 2014-07-04 CN CN201710729750.6A patent/CN107527628B/zh active Active
- 2014-07-04 CA CA3109028A patent/CA3109028C/en active Active
- 2014-07-04 BR BR122017018557-8A patent/BR122017018557B1/pt active IP Right Grant
- 2014-07-04 BR BR112016000337-3A patent/BR112016000337B1/pt active IP Right Grant
- 2014-07-04 RU RU2017144519A patent/RU2756434C2/ru active
- 2014-07-04 KR KR1020177024532A patent/KR102343019B1/ko active IP Right Grant
- 2014-07-04 RU RU2017144515A patent/RU2756435C2/ru active
- 2014-07-04 CN CN201480039594.5A patent/CN105378837B/zh active Active
- 2014-07-04 RU RU2017144518A patent/RU2751104C2/ru active
- 2014-07-04 KR KR1020167003307A patent/KR102315639B1/ko active IP Right Grant
- 2014-07-04 KR KR1020177024524A patent/KR102319881B1/ko active IP Right Grant
- 2014-07-04 EP EP14749907.3A patent/EP3020043B1/fr active Active
- 2014-07-04 US US14/904,555 patent/US10446163B2/en active Active
-
2017
- 2017-07-27 JP JP2017145792A patent/JP6515147B2/ja active Active
- 2017-09-13 JP JP2017175593A patent/JP6515158B2/ja active Active
- 2017-09-13 JP JP2017175592A patent/JP6515157B2/ja active Active
- 2017-09-26 US US15/715,733 patent/US10438599B2/en active Active
- 2017-09-26 US US15/715,819 patent/US10438600B2/en active Active
- 2017-09-26 US US15/715,785 patent/US10354664B2/en active Active
-
2019
- 2019-08-16 US US16/542,440 patent/US10943593B2/en active Active
- 2019-08-21 US US16/546,898 patent/US10943594B2/en active Active
- 2019-08-28 US US16/553,595 patent/US10672412B2/en active Active
- 2019-08-30 US US16/556,332 patent/US10783895B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044527A1 (en) * | 2002-09-04 | 2004-03-04 | Microsoft Corporation | Quantization and inverse quantization for audio |
EP1400955B1 (en) * | 2002-09-04 | 2008-12-17 | Microsoft Corporation | Quantization and inverse quantization for audio signals |
US20080027709A1 (en) * | 2006-07-28 | 2008-01-31 | Baumgarte Frank M | Determining scale factor values in encoding audio data with AAC |
RU2437172C1 (ru) * | 2007-11-04 | 2011-12-20 | Квэлкомм Инкорпорейтед | Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках |
US20110125506A1 (en) * | 2009-11-26 | 2011-05-26 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2756435C2 (ru) | Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты | |
RU2763481C2 (ru) | Улучшенное расширение диапазона частот в декодере звукового сигнала | |
JP2016528539A5 (ru) |