RU2568278C2 - Расширение полосы пропускания звукового сигнала нижней полосы - Google Patents
Расширение полосы пропускания звукового сигнала нижней полосы Download PDFInfo
- Publication number
- RU2568278C2 RU2568278C2 RU2012125251/08A RU2012125251A RU2568278C2 RU 2568278 C2 RU2568278 C2 RU 2568278C2 RU 2012125251/08 A RU2012125251/08 A RU 2012125251/08A RU 2012125251 A RU2012125251 A RU 2012125251A RU 2568278 C2 RU2568278 C2 RU 2568278C2
- Authority
- RU
- Russia
- Prior art keywords
- audio signal
- band
- lower band
- frequency
- features
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 73
- 239000000654 additive Substances 0.000 claims abstract description 31
- 230000000996 additive effect Effects 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 4
- 101000860173 Myxococcus xanthus C-factor Proteins 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
Изобретение относится к средствам расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала. Технический результат заключается в повышении эффективности расширения полосы звукового сигнала. Расширение полосы звукового сигнала включает в себя следующие этапы: извлекают (S1) набор особенностей звукового сигнала нижней полосы; сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу; управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы. 4 н. и 9 з.п. ф-лы, 14 ил.
Description
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к кодированию звука, и в частности, к расширению полосы пропускания звукового сигнала нижней полосы.
УРОВЕНЬ ТЕХНИКИ
Настоящее изобретение относится к расширению полосы пропускания (BWE) звуковых сигналов. Схемы BWE все больше используют в кодировании/декодировании речи и аудиосигналов для улучшения воспринимаемого качества при заданной скорости передачи битов. Главной идеей в основе BWE является то, что часть звукового сигнала не передают, а восстанавливают (оценивают) в декодере из компонентов принятого сигнала.
Таким образом, в схеме BWE часть спектра сигнала восстанавливают в декодере. Восстановление выполняют, используя некоторые особенности спектра сигнала, который был фактически передан, используя традиционные методы кодирования. Обычно верхнюю полосу (HB) сигнала восстанавливают из некоторых особенностей звукового сигнала нижней полосы (LB).
Зависимости между особенностями LB и характеристиками сигнала HB часто моделируют с помощью модели гауссовых смесей (GMM) или скрытых марковских моделей (ХМ), например, [1-2]. Чаще всего предсказанные характеристики HB относятся к спектральным и/или временным огибающим.
Существуют два основных подхода BWE:
• В первом подходе характеристики сигнала HB полностью предсказывают из некоторых особенностей LB. Эти решения BWE вносят артефакты в восстановленный сигнал HB, что в некоторых случаях приводит к ухудшению качества по сравнению с сигналом с ограниченной полосой. Сложные сопоставления (например, основанные на GMM или ХМ) вполне вероятно приводят к ухудшению качества при неизвестных данных. Практика обычно такова, что чем сложнее сопоставление (большое количество обучающих параметров), тем более вероятно возникновение артефактов при данных того типа, который не присутствует в обучающем наборе данных. Не является тривиальной задачей найти сопоставление с такой сложностью, которая обеспечивает оптимальный баланс между общей точностью предсказания и низким количеством выбросов (данных, которые заметно отклоняются от данных в обучающем наборе, т.е. компонентов, которые не могут быть очень хорошо смоделированы).
• Вторым подходом (пример описан в [3]) является восстановление сигнала HB из комбинации особенностей LB и небольшого количества переданной информации HB. Схемы BWE с помощью переданной информации HB приводят к улучшению эффективности (за счет увеличения битового бюджета), но не предлагают обобщенную схему объединения переданных и предсказанных параметров. Обычно один набор параметров HB передают, а другой набор параметров HB предсказывают, что означает, что переданная информация не может компенсировать неудачи в предсказанных параметрах.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Задачей настоящего изобретения является достижение улучшенной схемы BWE.
Эта задача достигается с помощью прилагаемой формулы изобретения.
Согласно первому аспекту настоящее изобретение содержит способ оценки расширения верхней полосы звукового сигнала нижней полосы. Этот способ включает в себя следующие этапы. Извлекают набор особенностей звукового сигнала нижней полосы. Извлеченные особенности сопоставляют по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования. Копию звукового сигнала нижней полосы сдвигают по частоте в верхнюю полосу. Огибающей сдвинутой по частоте копии звукового сигнала нижней полосы управляют по меньшей мере с помощью одного параметра верхней полосы.
Согласно второму аспекту настоящее изобретение содержит устройство для оценки расширения верхней полосы звукового сигнала нижней полосы. Блок извлечения особенностей конфигурируют для извлечения набора особенностей звукового сигнала нижней полосы. Блок сопоставления включает в себя следующие элементы: модуль сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования; модуль сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу; модуль управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.
Согласно третьему аспекту настоящее изобретение содержит речевой декодер, включающий в себя устройство согласно второму аспекту.
Согласно четвертому аспекту настоящее изобретение содержит сетевой узел, включающий в себя речевой декодер согласно третьему аспекту.
Преимущество предложенной схемы BWE состоит в том, что она предлагает хороший баланс между сложными схемами сопоставления (хорошая средняя эффективность, но сильные выбросы) и более ограниченной схемой сопоставления (ниже средняя эффективность, но более устойчивая).
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Данное изобретение, вместе с дополнительными задачами и преимуществами, можно лучше всего понять, обращаясь к последующему описанию, рассмотренному вместе с сопроводительными чертежами, на которых:
Фиг.1 - структурная схема, иллюстрирующая вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно одному из вариантов осуществления настоящего изобретения;
Фиг.2A-C являются схемами, иллюстрирующими принципы обобщенных аддитивных моделей;
Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.4 - схема, иллюстрирующая пример параметра верхней полосы, полученного с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения;
Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения;
Фиг.6 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению, подходящий для генерации расширения HB, основываясь на особенностях, проиллюстрированных на фиг.5;
Фиг.7 - схема, иллюстрирующая пример параметров верхней полосы, полученных с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения, основываясь на особенностях, проиллюстрированных на фиг.5;
Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирование, которая включает в себя речевой декодер согласно другому варианту осуществления настоящего изобретения;
Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно дополнительному варианту осуществления настоящего изобретения;
Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB;
Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера согласно настоящему изобретению;
Фиг.13 - структурная схема, иллюстрирующая вариант осуществления речевого декодера согласно настоящему изобретению; и
Фиг.14 - последовательность операций, которая иллюстрирует вариант осуществления способа согласно настоящему изобретению.
ПОДРОБНОЕ ОПИСАНИЕ
Элементы, имеющие одинаковые или подобные функции, будут обеспечены теми же самыми условными обозначениями на чертежах.
Далее объясняют набор особенностей LB и их использование для оценки части HB сигнала посредством сопоставления. Дополнительно, также объясняют, как переданная информация HB может использоваться для управления сопоставлением.
Фиг.1 - структурная схема, иллюстрирующая вариант осуществления структуры кодирования/декодирования, которая включает в себя речевой декодер согласно одному из вариантов осуществления настоящего изобретения. Речевой кодер 1 принимает (обычно кадр) исходный звуковой сигнал s, который направляют к блоку 10 фильтров анализа, который разделяет звуковой сигнал на часть SLB нижней полосы и часть SHB верхней полосы. В данном варианте осуществления часть HB не используют (что подразумевает, что блок фильтров анализа может просто содержать низкочастотный фильтр). Часть LB SLB звукового сигнала кодируют в кодере 12 LB (обычно в кодере линейного предсказания с кодовым возбуждением (CELP), например, в кодере с линейным предсказанием с алгебраическим кодовым возбуждением (ACELP)), и код посылают в речевой декодер 2. Пример кодирования/декодирования ACELP можно найти в [4]. Код, принимаемый речевым декодером 2, декодируют в декодере 14 LB (обычно в декодере CELP, например, в декодере ACELP), который выдает звуковой сигнал ŝLB нижней полосы, соответствующий SLB. Этот звуковой сигнал ŝLB нижней полосы направляют к блоку 16 извлечения особенностей, который извлекает набор особенностей FLB (описан ниже) сигнала ŝLB. Извлеченные особенности FLB направляют к блоку 18 сопоставления, который сопоставляет их по меньшей мере с одним параметром верхней полосы (описан ниже) с помощью обобщенного аддитивного моделирования (описано ниже). Параметр(ы) HB используется(ются) для управления огибающей копии звукового сигнала LB ŝLB, которая была сдвинута по частоте в верхнюю полосу, который дает предсказание или оценку ŝHB части HB, которую не используют, SHB. Сигналы SLB и SHB направляют к блоку 20 фильтров синтеза, который восстанавливает оценку ŝ оригинального исходного звукового сигнала. Блок 16 извлечения особенностей и блок 18 сопоставления вместе формируют устройство 30 (дополнительно описано ниже) для генерации расширения HB.
Представленные ниже в качестве примера особенности звукового сигнала LB, называемые локальными особенностями, используют для предсказания некоторых характеристик сигнала HB. Можно использовать все особенности или подмножество представленных в качестве примера особенностей. Все эти локальные особенности вычисляют на покадровой основе, и динамика локальных особенностей также включает в себя информацию из предыдущего кадра. В последующем n является индексом кадра, l является индексом выборки и s(n,l) является речевой выборкой.
Первые две примерные особенности относятся к наклону спектра и к динамике наклона. Они измеряют частотное распределение энергии:
Следующие две примерные особенности измеряют частоту основного тона (основную частоту речи) и динамику частоты основного тона. Поиск оптимальной задержки ограничен имеющим смысл диапазоном частоты основного тона, τMIN и τMAX, например, 50-400 Гц:
Пятая и шестая примерные особенности отражают баланс между тоновым и шумоподобным компонентами в сигнале. В данном случае σ2 ACB и σ2 FCB являются энергией адаптивной и фиксированной кодовой книги в кодеках CELP, например, в кодеках ACELP, и является энергией сигнала возбуждения:
Последняя локальная особенность в данном примерном наборе фиксирует динамику энергии на покадровой основе. В данном случае σ2 S является энергией речевого кадра:
Все эти локальные особенности, которые используются при сопоставлении, масштабируются перед сопоставлением следующим образом:
где ΨΜΙΝ и ΨΜАX являются предварительно определенными константами, которые соответствуют минимальному и максимальному значению для заданной особенности. Это дает набор извлеченных особенностей Ψ=
.
Согласно настоящему изобретению оценка расширения HB из локальных особенностей основана на обобщенном аддитивном моделировании. По этой причине данная концепция будет кратко описана в отношении фиг.2A-C. Дополнительные подробности относительно обобщенных аддитивных моделей могут быть найдены, например, в [5].
В статистике регрессионные модели часто используют для оценки поведения параметров. Простой моделью является линейная модель:
где Ŷ - оценка переменной Y, которая зависит от (случайных) переменных X1,..., XM. Это показано для М=2 на фиг.2A. В этом случае Ŷ будет плоской поверхностью.
Характерной особенностью линейной модели является то, что каждый элемент суммирования линейно зависит только от одной переменной. Обобщением этой особенности является изменение (по меньшей мере одной из) этих линейных функций на нелинейные функции (каждая из которых все еще зависит только от одной переменной). Это приводит к аддитивной модели:
Эта аддитивная модель проиллюстрирована на фиг.2B для М = 2. В этом случае поверхность, представляющая Ŷ, является изогнутой. Функции fm(Xm) обычно являются сигмоидальными функциями (в общем случае функциями, имеющими форму «S»), как проиллюстрировано на фиг.2B. Примерами сигмоидальных функций являются логистическая функция, кривая Гомперца, S-образная кривая и функция гиперболического тангенса. Изменяя параметры, которые определяют сигмоидальную функцию, сигмоидальная форма может изменяться непрерывно от приблизительно линейной формы между минимумом и максимумом до приблизительно ступенчатой функции между теми же самыми минимумом и максимумом.
Дополнительное обобщение получают с помощью обобщенной аддитивной модели
где g(⋅) называют связывающей функцией. Это проиллюстрировано на фиг.2C, где поверхность Ŷ дополнительно изменяют (Ŷ получают, беря инверсию g-1(⋅), обычно также сигмоидальную, обеих сторон в уравнении (11)). В особом случае, когда связывающая функция g(⋅) является функцией тождественности, уравнение (11) уменьшают до уравнения (10). Так как оба случая представляют интерес, в целях настоящего изобретения «обобщенная аддитивная модель» будет также включать в себя случай связывающей функции тождественности. Однако, как отмечено выше, по меньшей мере одна из функций fm(Xm) нелинейна, что делает модель нелинейной (поверхность Ŷ изогнута).
В одном из вариантов осуществления настоящего изобретения 7 (нормализованных) особенностей Ψ=
, полученных согласно уравнениям (1)-(8), используют для оценки соотношения Y(n) между энергией HB и LB в сжатой (обусловленной восприятием) области. Это соотношение может соответствовать некоторым частям временной или спектральной огибающих или полному усилению, как будет дополнительно описано ниже. Например:
где β можно выбирать как, например, β = 0,2. Другой пример:
В уравнениях (12) и (13) параметр β и функцию log10 используют для преобразования соотношения энергии в сжатую «обусловленную восприятием» область. Это преобразование выполняют для учета приблизительно логарифмических характеристик чувствительности человеческого уха.
Так как энергия EHB(n) не доступна в декодере, соотношение Y(n) предсказывают или оценивают. Это делают с помощью моделирования оценки Ŷ(n) соотношения Y(n), основываясь на извлеченных особенностях LB и обобщенной аддитивной модели. Пример задан с помощью:
где М = 7 при заданных извлеченных локальных особенностях (меньшее количество особенностей также допустимо). Если сравнивать с уравнением (11), то очевидно, что
соответствуют переменным X1,..., XP и что функции fk соответствуют элементам в сумме, которые являются сигмоидальными функциями, определенными с помощью параметров модели ω={ω1m, ω2m, ω2m}M m=1 и связывающей функцией тождественности. Параметры ω0 и ω обобщенной аддитивной модели хранятся в декодере, и они были получены с помощью обучения на базе данных речевых кадров. Обучающая процедура находит подходящие параметры ω0 и ω с помощью минимизации ошибки между соотношением Ŷ(n), оцененным с помощью уравнения (14), и фактическим соотношением Y(n), заданным уравнением (12) (или (13)) по речевой базе данных. Подходящим способом (специально для сигмоидальных параметров) является способ Левенберга-Марквардта, описанный, например, в [6].
Фиг.3 - структурная схема, иллюстрирующая вариант осуществления устройства 30 согласно настоящему изобретению для генерации расширения HB. Устройство 30 включает в себя блок 16 извлечения особенностей, сконфигурированный для извлечения набора особенностей
звукового сигнала нижней полосы. Блок 18 сопоставления, соединенный с блоком 16 извлечения особенностей, включает в себя модуль 32 сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей с параметром верхней полосы Ŷ с помощью обобщенного аддитивного моделирования. В проиллюстрированном варианте осуществления блок 18 сопоставления включает в себя модуль 34 сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы ŝLB в верхнюю полосу. В проиллюстрированном варианте осуществления блок 18 сопоставления также включает в себя модуль 36 управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью параметра верхней полосы Ŷ.
Фиг.4 - схема, иллюстрирующая пример параметра верхней полосы, полученного с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения. Она иллюстрирует, как предполагаемое соотношение (усиление) Ŷ используется для управления огибающей сдвинутой по частоте копии сигнала LB (в этом случае в частотной области). Пунктирная линия представляет постоянное усиление (1,0) сигнала LB. Таким образом, в данном варианте осуществления расширение HB получают с помощью применения одного предполагаемого усиления Ŷ к сдвинутой по частоте копии сигнала LB.
Фиг.5 - схема, иллюстрирующая определение подходящих для извлечения особенностей в другом варианте осуществления настоящего изобретения. В данном варианте осуществления извлекают только 2 особенности F1, F2 сигнала LB.
В показанном на фиг.5 варианте осуществления особенность F1 определяют с помощью:
где
E10,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 10,0-11,6 кГц,
E8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц.
Кроме того, в проиллюстрированном на фиг.5 варианте осуществления особенность F2 определяют с помощью:
где
E8,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 8,0-11,6 кГц,
E0,0-11,6 - оценка энергии звукового сигнала нижней полосы в частотной полосе 0,0-11,6 кГц.
Особенности F1, F2 представляют наклон спектра и аналогичны описанной выше особенности Ψ1, но их определяют в частотной области вместо временной области. Кроме того, может применяться определение особенностей F1, F2 по другим частотным интервалам сигнала LB. Однако в данном варианте осуществления настоящего изобретения важно, что F1, F2 описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
Используя извлеченные особенности F1, F2, теперь возможно, чтобы модуль 32 сопоставления сопоставлял их с параметрами HB
с помощью использования обобщенной аддитивной модели:
где
{w0k, w1mk, w2mk, w3mk} являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра
верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
Фиг.6 - структурная схема, иллюстрирующая вариант осуществления устройства согласно настоящему изобретению, подходящий для генерации расширения HB, основываясь на особенностях, проиллюстрированных на фиг.5. Данный вариант осуществления включает в себя аналогичные элементы, как вариант осуществления на фиг.3, но в этом случае они сконфигурированы для сопоставления особенностей F1, F2 с K усилениями
вместо одного усиления Ŷ.
Фиг.7 - схема, иллюстрирующая пример параметров верхней полосы, полученных с помощью обобщенного аддитивного моделирования согласно одному из вариантов осуществления настоящего изобретения, основываясь на особенностях, проиллюстрированных на фиг.5. В данном примере существует K=4 усилений
, которые управляют огибающей 4 предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы. Таким образом, в данном примере огибающей HB управляют с помощью 4 параметров
вместо одного параметра Ŷ в примере, относящемся к фиг.4. Меньшее и большее количество параметров также допустимо.
Фиг.8 - структурная схема, иллюстрирующая другой вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно другому варианту осуществления настоящего изобретения. Данный вариант осуществления отличается от варианта осуществления на фиг.1 тем, что в нем используют сигнал HB SHB. Вместо этого сигнал HB направляют к блоку 22 информации HB, который классифицирует сигнал HB и посылает N-битовый индекс класса в речевой декодер 2. Если передача информации HB разрешена, как проиллюстрировано на фиг.8, то сопоставление выполняют по частям с совокупностями, которые обеспечивают с помощью данной передачи, причем количество классов зависит от количества доступных битов. Индекс класса используют с помощью блока 18 сопоставления, как будет описано ниже.
Фиг.9 - структурная схема, иллюстрирующая дополнительный вариант осуществления структуры кодирования/декодирования, которая включает в себя декодер согласно дополнительному варианту осуществления настоящего изобретения. Этот вариант осуществления аналогичен варианту осуществления на фиг.8, но формирует индекс класса, используя и сигнал HB sHB, и сигнал LB sLB. В данном примере N=1 бит, но также возможно иметь больше 2 классов, если индекс будет включать в себя большее количество битов.
Фиг.10 - структурная схема, иллюстрирующая другой вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления отличается от варианта осуществления на фиг.3 тем, что он включает в себя модуль 38 выбора набора коэффициентов сопоставления, который сконфигурирован для выбора набора коэффициентов сопоставления ωC =
, зависящего от принятого индекса C класса сигнала. В данном варианте осуществления параметр верхней полосы Ŷ предсказывают из набора особенностей нижней полосы
и предварительно сохраненных коэффициентов сопоставления ωC. Индекс C класса выбирает набор коэффициентов сопоставления, который определяют с помощью обучающей процедуры в автономном режиме, чтобы они соответствовали данным в этой совокупности. Это можно увидеть, как постепенный переход из состояния, когда HB просто предсказывают (нет классификации), в состояние, когда HB просто квантуют (с классификацией). Последнее является результатом того факта, что с увеличением количества совокупностей сопоставление будет иметь тенденцию предсказывать среднее значение совокупности.
Фиг.11 - структурная схема, иллюстрирующая дополнительный вариант осуществления устройства согласно настоящему изобретению для генерации расширения HB. Данный вариант осуществления аналогичен варианту осуществления на фиг.10, но основан на особенностях F1, F2, описанных в отношении фиг.5. Кроме того, в данном варианте осуществления класс C сигнала задают с помощью (также относится к верхней части фиг.5):
где
ES 8,0-11,6 - оценка энергии исходного звукового сигнала в частотной полосе 8,0-11,6 кГц, и
ES 11,6-16,0 - оценка энергии исходного звукового сигнала в частотной полосе 11,6-16,0 кГц.
В данном примере C классифицирует (грубо говоря, чтобы дать мысленное представление того, что означает данная примерная классификация) звуки на «вокализованные» (класс 1) и «невокализованные» (класс 2).
Основываясь на этой классификации, блок 18 сопоставления можно конфигурировать для выполнения сопоставления согласно (обобщенной аддитивной модели 32):
где
Fm, m = 1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
В качестве примера K = 4, и F1, F2 можно определять с помощью (15) и (16).
Преимущество вариантов осуществления на фиг.8-11 состоит в том, что они обеспечивают «точную настройку» сопоставления извлеченных особенностей с типом кодируемого звука.
Фиг.12 - структурная схема, иллюстрирующая вариант осуществления сетевого узла, включающего в себя вариант осуществления речевого декодера 2 согласно настоящему изобретению. Этот вариант осуществления иллюстрирует радио-терминал, но другие сетевые узлы можно также применять. Например, если передача голоса по IP (Интернет протоколу) используется в сети, то узлы могут содержать компьютеры.
В сетевом узле на фиг.12 антенна принимает закодированный речевой сигнал. Демодулятор и канальный декодер 50 преобразовывает этот сигнал в речевые параметры нижней полосы (и дополнительно - в класс C сигнала, как обозначено «(класс C)» и штриховой линией сигнала) и направляет их к речевому декодеру 2 для генерации речевого сигнала s, как описано выше в отношении различных вариантов осуществления.
Описанные в данном документе этапы, функции, процедуры и/или блоки можно воплощать в аппаратном обеспечении, используя любую обычную технологию, такую как технология дискретных схем или интегральных схем, которые включают в себя и универсальную электронную схему, и специальную схему.
Альтернативно, по меньшей мере некоторые из описанных этапов, функций, процедур и/или блоков можно воплощать в программном обеспечении для выполнения с помощью подходящего устройства обработки, такого как микропроцессор, цифровой сигнальный процессор (DSP) и/или любое подходящее программируемое логическое устройство, например, устройство на основе программируемой пользователем вентильной матрицы (FPGA).
Нужно также подразумевать, что можно многократно использовать обычные возможности обработки сетевых узлов. Это можно сделать, например, с помощью перепрограммирования существующего программного обеспечения или добавления новых компонентов программного обеспечения.
В качестве примера реализации, фиг.13 является структурной схемой, иллюстрирующей вариант осуществления примера речевого декодера 2 согласно настоящему изобретению. Данный вариант осуществления основан на процессоре 100, например, микропроцессоре, который выполняет компонент 110 программного обеспечения для оценки речевого сигнала нижней полосы ŝLB, компонент 120 программного обеспечения для оценки речевого сигнала верхней полосы ŝHB, и компонент 130 программного обеспечения для генерации речевого сигнала ŝ из ŝLB и ŝHB. Данное программное обеспечение хранится в памяти 150. Процессор 100 осуществляет связь с памятью по системной шине. Параметры речи нижней полосы (и дополнительно класс C сигнала) принимаются с помощью контроллера 160 ввода/вывода (I/O), который управляет шиной I/O, с которой соединены процессор 100 и память 150. В данном варианте осуществления параметры, принимаемые контроллером 150 I/O, сохраняются в памяти 150, где они обрабатываются с помощью компонентов программного обеспечения. Компонент 110 программного обеспечения может воплощать функциональные возможности блока 14 в описанных выше вариантах осуществления. Компонент 120 программного обеспечения может воплощать функциональные возможности блока 30 в описанных выше вариантах осуществления. Компонент 130 программного обеспечения может воплощать функциональные возможности блока 20 в описанных выше вариантах осуществления. Речевой сигнал, полученный из компонента 130 программного обеспечения, выводится из памяти 150 с помощью контроллера 160 I/O по шине I/O.
В варианте осуществления на фиг.13 речевые параметры принимаются с помощью контроллера 160 I/O, а другие задачи, такие как демодуляция и канальное декодирование в радио-терминале, как предполагается, обрабатываются в другом месте в принимающем сетевом узле. Однако, в качестве альтернативы можно предоставлять возможность дополнительным компонентам программного обеспечения в памяти 150 также выполнять всю или часть цифровой обработки сигналов для извлечения речевых параметров из принимаемого сигнала. В таком варианте осуществления речевые параметры можно получать непосредственно из памяти 150.
В случае, если принимающий сетевой узел является компьютером, принимающим пакеты передачи голоса по IP-протоколу, то IP-пакеты обычно направляются к контроллеру 160 I/O, а речевые параметры извлекаются с помощью дополнительных компонентов программного обеспечения в памяти 150.
Некоторые или все описанные выше компоненты программного обеспечения можно переносить на компьютерно-читаемом носителе, например, на CD (компакт-диске), на DVD (цифровом универсальном диске) или на жестком диске, и загружать в память для выполнения с помощью процессора.
Фиг.14 - последовательность операций, которая иллюстрирует один из вариантов осуществления способа согласно настоящему изобретению. На этапе S1 извлекают набор особенностей
звукового сигнала нижней полосы. На этапе S2 сопоставляют извлеченные особенности по меньшей мере с одним параметром верхней полосы
с помощью обобщенного аддитивного моделирования. На этапе S3 сдвигают по частоте копию звукового сигнала нижней полосы ŝLB в верхнюю полосу. На этапе S4 управляют огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью параметра(ов) верхней полосы.
Специалистам будет понятно, что различные модификации и изменения могут быть сделаны в настоящем изобретении без отступления от его объема, который определен с помощью прилагаемой формулы изобретения.
СОКРАЩЕНИЯ
ACELP - линейное предсказание с алгебраическим кодовым возбуждением
BWE - расширение полосы пропускания
CELP - линейное предсказание с кодовым возбуждением
DSP - цифровой сигнальный процессор
FPGA - программируемая пользователем вентильная матрица
GMM - модель гауссовых смесей
HB - верхняя полоса
HMM - скрытые марковские модели
IP - Интернет-протокол
LB - нижняя полоса
ССЫЛКИ
[1] M. Nilsson and W. B. Kleijn, «Avoiding over-estimation in bandwidth extension of telephony speech», Proc. IEEE Int. Conf. Acoust. Speech Sign. Process., 2001.
[2] P. Jax and P. Vary, «Wideband extension of telephone speech using a hidden Markov model», IEEE Workshop on Speech Coding, 2000.
[3] ITU-T Rec. G.729.1, «G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729», 2006.
[4] 3GPP TS 26. 190, «Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions», 2008.
[5] «New Approaches to Regression by Generalized Additive Models and Continuous Optimization for Modern Applications in Finance, Science and Technology», Pakize Taylan, Gerhard- Wilhelm Weber, Amir Beck, http://www3.iam.metu.edu.tr/iam/images/1/10/Preprint56.pdf
[6] Numerical Recipes in C++: The Art of Scientific Computing, 2nd edition, reprinted 2003, W. Press, S. Teukolsky, W. Vetterling, B. Flannery.
Claims (13)
1. Способ расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, который включает в себя этап извлечения (S1) набора особенностей звукового сигнала нижней полосы, причем упомянутый способ отличается тем, что содержит этапы, на которых:
сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу;
управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы.
сопоставляют (S2) извлеченные особенности по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
сдвигают (S3) по частоте копию звукового сигнала нижней полосы в верхнюю полосу;
управляют (S4) огибающей сдвинутой по частоте копии звукового сигнала нижней полосы с помощью упомянутого по меньшей мере одного параметра верхней полосы.
3. Способ по п. 2, в котором сопоставление задают с помощью:
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
4. Способ по п. 2, в котором сопоставление задают с помощью:
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
5. Способ по п. 3 или 4, в котором К=4.
6. Устройство (30) расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала, которое включает в себя блок (16) извлечения особенностей, сконфигурированный для
извлечения набора особенностей звукового сигнала нижней полосы, причем упомянутое устройство отличается тем, что содержит блок (18) сопоставления, который включает в себя:
модуль (32) сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
модуль (34) сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу;
модуль (36) управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.
извлечения набора особенностей звукового сигнала нижней полосы, причем упомянутое устройство отличается тем, что содержит блок (18) сопоставления, который включает в себя:
модуль (32) сопоставления с помощью обобщенного аддитивного моделирования, сконфигурированный для сопоставления извлеченных особенностей по меньшей мере с одним параметром верхней полосы с помощью обобщенного аддитивного моделирования;
модуль (34) сдвига частоты, сконфигурированный для сдвига по частоте копии звукового сигнала нижней полосы в верхнюю полосу;
модуль (36) управления огибающей, сконфигурированный для управления огибающей сдвинутой по частоте копии с помощью упомянутого по меньшей мере одного параметра верхней полосы.
8. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, управляющее огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
9. Устройство по п. 7, в котором модуль (32) сопоставления с помощью обобщенного аддитивного моделирования сконфигурирован для выполнения сопоставления согласно:
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
где
, k=1,…, К, являются параметрами верхней полосы, которые определяют усиление, связанное с классом С сигнала, который классифицирует исходный звуковой сигнал, представленный звуковым сигналом нижней полосы , и управляют огибающей К предварительно определенных частотных полос сдвинутой по частоте копии звукового сигнала нижней полосы,
являются наборами коэффициентов сопоставления, которые определяют сигмоидальные функции для каждого параметра верхней полосы в классе С сигнала,
Fm, m=1, 2, являются особенностями звукового сигнала нижней полосы, которые описывают соотношения энергии между различными частями спектра звукового сигнала нижней полосы.
11. Речевой декодер, включающий в себя устройство (30) по любому из предыдущих пп. 6-9.
12. Сетевой узел, включающий в себя речевой декодер по п. 11.
13. Сетевой узел по п. 12, в котором сетевой узел является радио-терминалом.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US26259309P | 2009-11-19 | 2009-11-19 | |
US61/262,593 | 2009-11-19 | ||
PCT/SE2010/050984 WO2011062538A1 (en) | 2009-11-19 | 2010-09-14 | Bandwidth extension of a low band audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2012125251A RU2012125251A (ru) | 2013-12-27 |
RU2568278C2 true RU2568278C2 (ru) | 2015-11-20 |
Family
ID=44059836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012125251/08A RU2568278C2 (ru) | 2009-11-19 | 2010-09-14 | Расширение полосы пропускания звукового сигнала нижней полосы |
Country Status (7)
Country | Link |
---|---|
US (1) | US8929568B2 (ru) |
EP (1) | EP2502231B1 (ru) |
JP (1) | JP5619177B2 (ru) |
CN (1) | CN102612712B (ru) |
BR (1) | BR112012012119A2 (ru) |
RU (1) | RU2568278C2 (ru) |
WO (1) | WO2011062538A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447617B2 (en) * | 2009-12-21 | 2013-05-21 | Mindspeed Technologies, Inc. | Method and system for speech bandwidth extension |
WO2013147668A1 (en) | 2012-03-29 | 2013-10-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Bandwidth extension of harmonic audio signal |
CN103928031B (zh) | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
CN110111801B (zh) * | 2013-01-29 | 2023-11-10 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、方法及编码音频表示 |
PT2951825T (pt) * | 2013-01-29 | 2022-02-02 | Fraunhofer Ges Forschung | Aparelho e método para geração de um sinal aprimorado em frequência utilizando suavização temporal de sub-bandas |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
FR3017484A1 (fr) | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
JP2016038435A (ja) * | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US9837094B2 (en) * | 2015-08-18 | 2017-12-05 | Qualcomm Incorporated | Signal re-use during bandwidth transition period |
WO2020180424A1 (en) | 2019-03-04 | 2020-09-10 | Iocurrents, Inc. | Data compression and communication using machine learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0732687A2 (en) * | 1995-03-13 | 1996-09-18 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
RU2199157C2 (ru) * | 1997-03-03 | 2003-02-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Способ последующей обработки с высокой разрешающей способностью для речевого декодера |
EP1300833A2 (en) * | 2001-10-04 | 2003-04-09 | AT&T Corp. | A method of bandwidth extension for narrow-band speech |
EP1638083A1 (en) * | 2004-09-17 | 2006-03-22 | Harman Becker Automotive Systems GmbH | Bandwidth extension of bandlimited audio signals |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP3861770B2 (ja) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
WO2005078707A1 (en) * | 2004-02-16 | 2005-08-25 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
AU2006232361B2 (en) * | 2005-04-01 | 2010-12-23 | Qualcomm Incorporated | Methods and apparatus for encoding and decoding an highband portion of a speech signal |
PL1875463T3 (pl) * | 2005-04-22 | 2019-03-29 | Qualcomm Incorporated | Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia |
CA2558595C (en) | 2005-09-02 | 2015-05-26 | Nortel Networks Limited | Method and apparatus for extending the bandwidth of a speech signal |
KR20070037945A (ko) * | 2005-10-04 | 2007-04-09 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
TWI556227B (zh) * | 2009-05-27 | 2016-11-01 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
-
2010
- 2010-09-14 RU RU2012125251/08A patent/RU2568278C2/ru not_active IP Right Cessation
- 2010-09-14 EP EP10831867.6A patent/EP2502231B1/en active Active
- 2010-09-14 BR BR112012012119-7A patent/BR112012012119A2/pt not_active IP Right Cessation
- 2010-09-14 WO PCT/SE2010/050984 patent/WO2011062538A1/en active Application Filing
- 2010-09-14 US US13/509,859 patent/US8929568B2/en active Active
- 2010-09-14 CN CN201080052278.3A patent/CN102612712B/zh not_active Expired - Fee Related
- 2010-09-14 JP JP2012539849A patent/JP5619177B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0732687A2 (en) * | 1995-03-13 | 1996-09-18 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
RU2199157C2 (ru) * | 1997-03-03 | 2003-02-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Способ последующей обработки с высокой разрешающей способностью для речевого декодера |
EP1300833A2 (en) * | 2001-10-04 | 2003-04-09 | AT&T Corp. | A method of bandwidth extension for narrow-band speech |
EP1638083A1 (en) * | 2004-09-17 | 2006-03-22 | Harman Becker Automotive Systems GmbH | Bandwidth extension of bandlimited audio signals |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
RU2742296C2 (ru) * | 2015-06-18 | 2021-02-04 | Квэлкомм Инкорпорейтед | Генерация сигнала верхней полосы |
US11437049B2 (en) | 2015-06-18 | 2022-09-06 | Qualcomm Incorporated | High-band signal generation |
US12009003B2 (en) | 2015-06-18 | 2024-06-11 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
Also Published As
Publication number | Publication date |
---|---|
EP2502231A1 (en) | 2012-09-26 |
JP5619177B2 (ja) | 2014-11-05 |
CN102612712B (zh) | 2014-03-12 |
JP2013511743A (ja) | 2013-04-04 |
WO2011062538A9 (en) | 2011-06-30 |
CN102612712A (zh) | 2012-07-25 |
US8929568B2 (en) | 2015-01-06 |
US20120230515A1 (en) | 2012-09-13 |
BR112012012119A2 (pt) | 2021-01-05 |
WO2011062538A1 (en) | 2011-05-26 |
RU2012125251A (ru) | 2013-12-27 |
EP2502231A4 (en) | 2013-07-10 |
EP2502231B1 (en) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2568278C2 (ru) | Расширение полосы пропускания звукового сигнала нижней полосы | |
US11562764B2 (en) | Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor | |
RU2371784C2 (ru) | Изменение масштаба времени кадров в вокодере посредством изменения остатка | |
JP5203929B2 (ja) | スペクトルエンベロープ表示のベクトル量子化方法及び装置 | |
RU2414010C2 (ru) | Трансформация шкалы времени кадров в широкополосном вокодере | |
TWI480857B (zh) | 在不活動階段期間利用雜訊合成之音訊編解碼器 | |
JP5714180B2 (ja) | パラメトリックオーディオコーディング方式の鑑識検出 | |
TWI480856B (zh) | 音訊編解碼器中之雜訊產生技術 | |
RU2389085C2 (ru) | Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx | |
RU2420817C2 (ru) | Системы, способы и устройство для ограничения коэффициента усиления | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
TW201009812A (en) | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs | |
KR102380487B1 (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
RU2744485C1 (ru) | Ослабление шума в декодере | |
IL239718A (en) | Systems and methods for performing amplification control | |
JP6321684B2 (ja) | サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法 | |
Yu et al. | Speech enhancement using a DNN-augmented colored-noise Kalman filter | |
CN116997962A (zh) | 基于卷积神经网络的鲁棒侵入式感知音频质量评估 | |
JP2016507789A (ja) | 平均符号化レートを制御するためのシステムおよび方法 | |
JP2006521576A (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
US20090063158A1 (en) | Efficient audio coding using signal properties | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
JP2008519308A5 (ru) | ||
Faycal et al. | Comparative performance study of several features for voiced/non-voiced classification | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HC9A | Changing information about inventors | ||
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20200915 |